1
古籍文本数据格式比较研究
1.9 第八章 文本格式比较
第八章 文本格式比较

王冠中在《中文古籍数字化成果与展望》中将古籍文本数据归纳为以下四类格式:无格式文本,不带任何格式的文本文件,如TXT等;格式文本,指以字符方式存放,附有各种标识的文件,如DOC、PDF、WDL、EBK、EDB、OEB、SEP、IFR、XEB、PDG、CEB等,此类文件的浏览、编辑需使用专用软件;超文本,支持网络浏览的文本格式,如HTML、XML等;其它格式,如EXE、DBF、项目自定义格式等[1]

毛建军在《中文古籍全文数据库的类型与规范》中根据古籍全文数据库的存储方式,将古籍全文数据库分为图像版、文字版、图文版三种类型:(1)图像版,将古籍书页进行原文图像扫描,存储在数字光盘或计算机硬盘等介质上,从而为读者提供文献阅读服务的数据库;(2)文字版,将古籍文献转换成文本字符的形式,存储在数字光盘或计算机硬盘等介质上,并附加全文检索和超级链接等附加功能,从而为读者提供全文阅读或全文检索服务的数据库;(3)图文版,就是图像版与文字版的结合,将数据库中加入了原文图像,读者在需要查阅原文时只需点击随机附加的“原文影像”即可,从而实现了两种数据库的优势互补[2]。这里的全文(full book或full content)数据指包含古籍全部内容的数据,而非专指文本数据。本书中使用全文文本(fulltext)数据,指包含古籍全部内容的文本数据。

本书依据文本化的覆盖范围先将古籍文本数据划分为全文文本和部分文本两类,再将全文文本划分为纯文本、位置文本、版式文本、语义文本等几类,如图8-1所示。

图8-1古籍文本数据分类示意图