1
古籍文本数据格式比较研究
1.5.1.2 二、现状
二、现状

位置文本主要应用于双层PDF和双层DjVu。章杰鑫在《古籍数字化技术的新思路》中提出将文献图片OCR识别成文本,与图片形成双层PDF文件,文本层中每一个字符与图像层中相应字符的坐标一一对应;通过坐标排序及自动校对的基本原理,已经实现了在原始影印版古籍图片上的全文检索、全文定位的古籍数字化系统,包括古籍加工系统和古籍查询系统;利用古籍加工系统进行古籍加工,能在少量人工干预的前提下实现平均40秒钟加工一页的速度,加工完成的数据可导入古籍查询系统进行查询[2]。CADAL项目在“古籍数字对象制作规范”中将双层DjVu(TextHiddenDjVu)定义为通过OCR等技术手段,将原文中每行文字内容放在底层,上层放置原始图像,继而形成的DjVu格式的文件[3],但是未说明双层DjVu的制作方式或加工规范。位置文本在大型古籍文本化项目中应用很少。