1
古籍文本数据格式比较研究
1.5.1.1 一、源起
一、源起

位置文本的出现与OCR(Optical Character Recognition,光学字符识别)应用与古籍文本化直接相关。汉字OCR始于20世纪60年代,1966年,IBM公司的Casey和Nagy发表了第一篇关于印刷体汉字识别的论文,在这篇论文中他们利用简单的模板匹配法识别了1000个印刷体汉字;70年代以来,日本在汉字OCR方面进行了大量的研究与实践,其中最有代表性的系统有1977年东芝综合研究所研制的可以识别2000汉字的单体印刷汉字识别系统;80年代初期,日本武藏野电气研究所研制的可以识别2300个多体汉字的印刷体汉字识别系统,代表了当时汉字识别的最高水平。我国对印刷汉字识别的研究始于20世纪70年代末、80年代初,大致可以分为三大阶:第一阶段从70年代末期到80年代末期,主要是算法和方案探索;第二阶段是90年代初期,中文OCR由实验室走向市场,初步实用;第三阶段也就是目前,主要是汉字识别技术和系统性能的提高,包括汉英双语混排识别率的提高和稳健性的增强[1]。目前,国外OCR识别技术的主要提供商是美国的Nuance、俄罗斯的ABBYY以及新加坡的Hotcard,后者主要是做嵌入式OCR研发;国内主要有汉王、北京文通、台湾蒙恬等。

在OCR系统中,如图4-2所示,先进行版面分析,即在古籍图像中划分区域,之后进行预处理,将区域中的文字或符号切分为单个文字或符号,然后再分类进行识别。OCR数据包含区域数据、单个文字或符号的坐标数据和文字或符号数据,与位置文本数据相同。

图4-2 OCR系统结构图