全屏显示专题章节

位置文本的出现与OCR（Optical Character Recognition，光学字符识别）应用与古籍文本化直接相关。汉字OCR始于20世纪60年代，1966年，IBM公司的Casey和Nagy发表了第一篇关于印刷体汉字识别的论文，在这篇论文中他们利用简单的模板匹配法识别了1000个印刷体汉字；70年代以来，日本在汉字OCR方面进行了大量的研究与实践，其中最有代表性的系统有1977年东芝综合研究所研制的可以识别2000汉字的单体印刷汉字识别系统；80年代初期，日本武藏野电气研究所研制的可以识别2300个多体汉字的印刷体汉字识别系统，代表了当时汉字识别的最高水平。我国对印刷汉字识别的研究始于20世纪70年代末、80年代初，大致可以分为三大阶：第一阶段从70年代末期到80年代末期，主要是算法和方案探索；第二阶段是90年代初期，中文OCR由实验室走向市场，初步实用；第三阶段也就是目前，主要是汉字识别技术和系统性能的提高，包括汉英双语混排识别率的提高和稳健性的增强^[1]。目前，国外OCR识别技术的主要提供商是美国的Nuance、俄罗斯的ABBYY以及新加坡的Hotcard，后者主要是做嵌入式OCR研发；国内主要有汉王、北京文通、台湾蒙恬等。

在OCR系统中，如图4-2所示，先进行版面分析，即在古籍图像中划分区域，之后进行预处理，将区域中的文字或符号切分为单个文字或符号，然后再分类进行识别。OCR数据包含区域数据、单个文字或符号的坐标数据和文字或符号数据，与位置文本数据相同。