1
古籍文本数据格式比较研究
1.6.1.2 二、现状
二、现状

目前,相对于其他类型的文本数据,版式文本的应用实例最多、最成熟,尤其是大规模应用型项目。书同文“文渊阁四库全书电子版”、“爱如生大型古代数据库”、国家图书馆“数字方志”等项目各具特色,《中文文献全文版式还原与全文输入XML规范》是唯一公布的文本数据标准规范。

(一)文渊阁四库全书电子版

“文渊阁四库全书电子版”(以下简称为4KQS)以《景印文渊阁四库全书》为底本,由上海人民出版社和迪志文化出版有限公司合作出版,迪志文化出版有限公司、书同文计算机技术开发有限公司承办全部开发制作工程,清华大学计算机系负责OCR引擎开发,北大方正电子有限公司负责建立专用字库,微软公司(北京)研究开发中心在平台技术等方面提供技术援助[9]。4KQS项目1996年开始第一期四库全书数字化工程策划,1997年在北京建立工程中心及计划小组,1998年推出“原文及标题检索版”,2000年推出“全文检索单机版”、“全文检索网络版”、“个人标题版”[10]

4KQS项目是一个复杂的系统工程,该项目的重点是建立数据库和系统技术开发。建立数据库是在国际标准的架构下,建立一个庞大的汉字信息数据库,将图像数据和全文文本纳入数据库中。系统技术开发是使全文文本具有强大的检索功能(包括全文检索、分类检索、书名检索和著者检索)和阅读功能(包括放大、缩小、复制、笔记、打印、管理检索结果、查阅辅助工具、查阅联机字典等)。此外,还提供古今纪年换算、干支/公元年换算、八卦·六十四卦表、《四库大辞典》(吉林大学出版社出版)资料链接、联机字典等功能[11]

4KQS项目首先要解决四个影响全局的问题:(1)编码字符集的定义与选择,CodePage还是Unicode;(2)手写汉字转化为编码汉字,人工录入还是OCR;(3)字符化的汉字内容如何检索;(4)如何将图文及检索系统应用于多语言、多个平台环境中[12]

4KQS项目使用Unicode字符集,包括CJK、CJK扩A和自定义编码区,共29172个汉字和符号,称为CJK+。CJK+字库的自定义编码4296个,出现1959813字次,主要来源选于:《四库全书》作者数据库、书名数据库、180万条篇目中的汉字;《四库全书》全文文本中出现率在3次/亿以上的汉字;《中华古汉语字典》、《中华文化通志》中的汉字[13]。在当时的技术条件下,4KQS项目使用的CJK+字库较好地解决了字符编码问题[14]。与使用GBK相比,以经部前19册870多万语料为例,外字出现率从万分之5.57降到了万分之1.73,其中属于原文模糊不清的有万分之1.53,而真正的外字,只有大约万分之0.2[15]

4KQS项目采用OCR方法进行全文化,《景印文渊阁四库全书》虽然是抄本,但是抄写规范,馆阁体楷书可以使用OCR。刘博在《基于文渊阁〈四库全书〉电子版分析的我国古籍数字化问题与对策研究》中指出,《四库全书》工程中心和清华大学计算机系密切合作,进行了大量的研究与开发,将清华的“非特定人手写识别OCR技术”发展为面向《四库全书》工程的“多特定人准规范手写OCR引擎”;OCR该引擎全面Uniocde化,支持CJK+,可涵盖古籍汉字的99%;没有印章和小字较少的普通叶平均识别率可92%,小字多、有印章噪声的叶识别率也可以达到89%;综合运用OCR提供的信息,为校对人员提供“校得快”等软件(支持CJK+),采用多种信息和校对手段,使校对人员提高工作效率[16]

图5-1 4KQS文本数据

图5-2 4KQS图像数据

4KQS“原文及全文检索版”主要包括五个数据库:全文文本数据(如图5-1所示)、原文真迹图像数据(如图5-2所示)、书名数据、著者数据和辅助数据(分类条件、联机字典、汉字关联、辅助输入、辅助工具)。支持全文检索(如图5-3所示)、分类检索(如图5-4所示)、书名检索、著者检索等检索方式。通过应用微软公司的SingleBinary跨平台技术,使4KQS可以在中文(简体/繁体)、英文、日文、韩文等多种语言的窗口环境中运行(windows98或windows NT4.0及windows2000)[17]

图5-3 4KQS全文检索

图5-4 4KQS分类检索

在上述数据库中,全文文本数据是项目建设的核心。全文文本数据建设分为三个阶段:(1)先对处理好的原文图像进行计算机切分、人工辅助纠错,提取每一个字的字迹图像;(2)再用多特定人规范手写识别引擎(结合超过七千字的Unicode版本的标识符典),把每个字迹图像识别成计算器的编码汉字,并给出每个字迹图像所可能对应的十个候选字及相关参数,解决百分之九十以上的录入问题;(3)使用“校得快”、“校得准”、“校得精”的三种“联机校对”软件,从不同的角度来进行五次无纸的数据校对工作(“校得快”在屏幕上显示字迹与其识别出来的汉字,一一对应、顺序校对,反复进行一、三校;“校得准”软件用于二、四校,以“交叉校对”方法打乱原文顺序,把所选叶中同样的字聚集在一起,连同其所对应的字迹显示在屏幕上,从而使错字一目了然;“校得精”用于五校,它的特点是对全部数据再进行页对页、行对行的比对,将文本数据逐字逐句的和原文图像进行对照;并包括外字回填、一致性处理,实施全面检校)最后是专业校对,特别聘请专业工作者对数据作抽样校对[18]

4KQS项目的文字认同原则:(1)参照遵守ISO10646/Unicode的认同规则,AnnexT;(2)原则上不做以简代繁或以繁代简,原书中的简体字原样照录;(3)进行有控制的异体代换。微小笔形差异视作异写,应认同之而不加标记,在Unicode中两个异体字都有编码时,应选与书中字迹最接近者,有编码的两个异体字作为构件组成的其它字时,选用计算机平台已有的字代换之而不需标记;(4)其他异体代换,必须标记相似符号“~”;(5)为了尊重古籍原貌,保留其文化现象,避讳字按原字形转换,必须加标记,并详细记录;(6)原书中的错字讹字,只要计算机中有与书中字迹一致者,选用之,同时做书面记录;(7)对抄写过程中出现的增笔、减笔、误笔及书写习惯而出现的明显讹误,校对过程中已依照文意做辨别处理,不加标记,如剌/刺、已/巳/己等;(8)对原书中的模糊之处( “模糊字”) ,实在难以辨别者,保留其原图形作“□”处理,并加以说明。该项目的外字处理方式如表5-1所示,外字表示上策是用组合序列表示外字,中策是用“相似”符加上肯定的异体字记录之,下策是代之以问号[19]。除了文字认同外,4KQS项目对部分集外字做了贴图处理,如图5-5所示,还有部分替换为“□”或“”构符,如图5-6所示。

表5-1 4KQS外字处理方式[20]

续表

图5-5 4KQS集外字贴图

图5-6 4KQS集外字替换为“□”或结构符

《文渊阁四库全书电子版》第二期工程于2005年展开,并于2007年推出崭新的《文渊阁四库全书电子版》3.0版。新版本的主要特点有:(1)采用了符合Unicode5.0标准的七万多字(70195个字符)字库,按Unicode编码标准造字12592个,使可检索字符达82787个,将旧版中20万个贴图字或“□”,使之可检索;(2)将旧版中近六万个表格及年表图像数码化及版式还原,将图像标题数码化,用户可在全文检索中检出所有相关图像;(3)改进检索引擎效率及检索功能,提供二次检索、多个关键词检索、布尔逻辑检索等;(4)配备69584组汉字的关联,包括异体、繁简、古今、通假、新旧及中日六种,可选定关键词的关联汉字一并进行检索,避免因字的不同写法使检索有所遗漏;(5)加强书签、笔记及标点等个人化功能,陆续加入其他字典、词典,方便实时查阅;(6)改进用户使用接口,提供原文文本、原文图像、原文文本与原文图像并列显示3种阅读模式供选择。检索结果以树状结构显示,可弹性按《四库全书》的分类检视匹配结果,书名、卷名、匹配数、朝代及著者一目了然,可预览关键词上、下文的概要,减省浏览各匹配全文的时间[21]

(二)爱如生大型古代数据库

爱如生大型古代数据库包括四库系列数据库、中国方志库、中国谱牒库、中国金石库、中国丛书库、中国类书库、中国辞书库、中国经典库、中国俗文库、历代别集库、敦煌文献库等[22]

四库系列数据库是围绕清修《四库全书》汇辑历代典籍的全文检索版系列数据库,汇辑清修四库采录之书、列为存目之书、军机处奏明毁弃之书、未见未收之书,按清修四库时处理方式,编为四个既互相联系又各自独立的子库:(1)四库著录书,收录清修四库时修入《四库全书》之3460种典籍;(2)四库存目书,收录清修四库时列为存目之4752种典籍;(3)四库奏毁书,收录清修四库时军机处奏明毁弃之620种典籍(4)四库未收书,收录清修四库时未见未收之168种典籍。四个子库合起来是一个完整系列,展现清修四库的全貌;分开来各自独立,显示清修四库的不同侧面。全库共收录历代典籍9000种,采用宋元明清民国及外国各级善本9209个,总计原版影像940万页、全文录文19亿字,数据总量350G;全库已于2015年出版[23]

中国方志库是专门收录历代地方志类典籍的全文检索版大型古籍数据库,收汉魏至民国地方志达1万种、宋元明清及民国各级善本1万个,采用爱如生独有之数字再造技术制作,还原式页面,左图右文逐页对照,眉批、夹注、图表、标记等无障碍录入和非嵌入式显示;总计全文超过20亿字,影像超过1,000万页,数据总量约300G;同时配备强大的检索系统和完备的功能平台,可进行毫秒级快速海量全文检索和一站式整理研究作业;分为5集陆续出版,初集(历代省通志及府州县厅志2000种)2008年出版,二集(历代省通志及府州县厅志2000种)2014年出版[24]

中国谱牒库是专门收录历代谱牒类典籍的全文检索版大型古籍数据库,分为家谱编、年谱编、仕谱编、日谱编,共收录宋元明清历代家谱6,000余种,年谱1,500余种,仕谱2,000余种,日谱500余种,合计1万种;每种皆据善本,采用爱如生独有之数字再造技术制作,还原式页面,左图右文逐页对照,眉批、夹注、图表、标记等无障碍录入和非嵌入式显示;总计全文超过10亿字,影像超过1千万页,数据总量约350G;分为5集陆续出版,初集(收录历代家谱、年谱、搢绅录、日记2000种)2009年出版[25]

中国金石库是专门收录历代金石文献的全文检索版大型古籍数据库,收录上古至民国初年历代金石文献,其中金石拓片20余万件,金石志书2000余种;每种(件)各据善本(原件)详加订释,采用爱如生独有之数字再造技术制作,还原式页面,左图右文逐页对照,眉批、夹注、图表、标记及古文字、重叠字、颠倒字无障碍录入和非嵌入式显示;总计全文超过5亿字,影像超过300万页,数据总量约200G;分为5集陆续出版,初集(收录历代历代金石志书共1700种)2015年出版[26]

中国丛书库是专门收录历代丛书的全文检索版大型古籍数据库,以丛书集成初、续、三编为基础,将丛书选取范围扩至1000部,遵循罕见和实用的原则,运用大数据技术,汰重取优,采辑历代典籍2万种;每种皆据善本,以爱如生独有之数字再造技术制作,还原式页面,左图右文逐页对照,眉批、夹注、图表、标记等无障碍录入和非嵌入式显示;总计全文超过12亿字,影像超过1,000万页,数据总量超过300G;分为6集陆续出版,初集(收录历代丛书4000种典籍),于2009年出版[27]

中国辞书库是专门收录历代语言文字类典籍的全文检索版大型古籍数据库,网罗先秦至民国历代语言文字类典籍,包括字书、韵书、雅书和字典等共计1千种,搜集宋元明清及民国各级善本1000个,采用爱如生独有之数字再造技术,结合方正超大型汉字库和爱如生古文字字库,制成保留原书所有信息的数码全文,还原式页面,左图右文逐页对照,眉批、夹注、图表、标记和古文字、冷僻字、异体字无障碍录入和显示;总计全文超过3亿字,影像超过100万页,数据总量约100G;全库已于2013年出版[28]

中国经典库是专门收录中国古代思想宗教类典籍的全文检索版大型古籍数据库,分为儒典、佛经、道藏、子书四编,共汇辑上自先秦下至民国历代儒、释、道和诸子百家之书1万种,采用宋元明清及民国各级善本1万个,以爱如生独有之数字再造技术,制成保留原书所有信息的数码全文,还原式页面,左图右文逐页对照,眉批、夹注、图表、标记等无障碍录入和非嵌入式显示;总计全文超过20亿字,影像超过1,000万页,数据总量约300G;分为5批陆续出版,首批道藏编(正续道藏和藏外道书共2000种)2011年出版,二批儒典编(历代经学儒学典籍2500种)2012年出版[29]

中国俗文库是专门收录自唐宋以来中国传统社会底层流行文献的全文检索版大型古籍数据库,分为俗讲、小说、戏曲、说唱四编,收录历代俗文学作品与俗文字史料多达1万种,每种皆据善本,采用爱如生独有之数字再造技术制作,还原式页面,左图右文逐页对照,眉批、夹注、图表、标记等无障碍录入和非嵌入式显示;总计全文超过10亿字,影像超过1000万页,数据总量约300G;分为5集陆续出版,初集(收录历代变文、善书、宝卷、戏曲、小说及说唱等2000种)2011年出版[30]

历代别集库是专门收录历代个人著作集的全文检索版大型古籍数据库,分为明前编、明代编、清代编,共收录上起周秦下至清末历代个人著作集,含骚赋集、诗文集、词曲集及其选本、注本和评本共计1万种,采用宋元明清及民国各级善本1万个,以爱如生独有之数字再造技术制作,还原式页面,左图右文逐页对照,眉批、夹注、图表、标记等无障碍录入和非嵌入式显示;总计全文超过20亿字,影像超过1,000万页,数据总量超过350G;分为5批陆续出版,首批明前编(自周秦至宋元历代别集2000种)2013年出版,二批清前期编(清乾嘉以前别集2000种)2015年出版[31]

敦煌文献库是专门收录敦煌汉文文献的全文检索版大型古籍数据库,辑录现藏中国大陆和台湾地区以及英、法、俄、德、日等国之敦煌汉文文献3万余件,分为佛书编(佛教经卷)、遗书编(经史子集四部典籍写本)、文书编(官文书、私文书及寺院文书残卷),各据原件照片或影本制成高精度的数码影像,并以爱如生独有之数字再造技术制成保留原件所有信息的数码全文,采用还原式页面,逼真再现敦煌文献的各种复杂书式,包括眉批、夹注、图表、标记及怪僻字、重叠字、翻转字、涂抹字等;总计全文超过1亿字,影像超过30万页,数据总量约100G;分为5集陆续出版,初集(四部经籍写本、官私和寺院文书3200件)2012年出版[32]

以中国方志库为例,分为本地安装版(单机/局域网,使用客户端,提供HD盘+USB2.0加密狗)、远程服务版(局域网,使用客户端或浏览器,远程登入)和在线使用版(互联网,使用浏览器,网上开通);适用于Windows10/8/7/Vista/server2012/2008/2003操作系统,使用方正楷体S-超大字符集;采用还原式页面(如图5-7所示),左图右文,逐页对照,眉批、夹注、图表、标记无障碍录入,非嵌入式显示;提供分类检索(类、目)、区域检索(省、市、县,如图5-8所示)、条目检索(志名、时代、作者、版本、篇目,如图5-9所示)、全文检索(任意字、词和字符串,包括眉批、夹注、图表、标记中文字,如图5-10所示)和高级检索(进阶、逻辑、关联、模糊);提供放缩(影像放大阅读)、全屏(影像全屏阅读)、去灰(影像去除灰度阅读)、连缀(影像前后页连缀阅读,如图5-11所示)、设置(全文设定版式和字体)、标注(全文添加标点和批注)、书签(全文添加书签和分类管理)、复制(全文编辑、下载和打印)等功能;提供版本速查(查找版本及藏所)、古今地名(查找古地今名或今地古名)、常用字典(查找难字读音及释义)、中外纪年(实现朝代、年号、干支与公元转换)等辅助工具。

图5-7 中国方志库还原式页面

图5-8 中国方志库区域检索页面

【注释】

[1]王春林.科技编辑大辞典[M].上海:第二军医大学出版社,2001:149.

[2]赵法新,胡永信,雷新强等.中医文献学辞典[M].北京:中医古籍出版社,2000:279.

[3]诸伟奇,贺友龄,赵锋等.简明古籍整理辞典[M].哈尔滨:黑龙江人民出版社,1990:172

[4]李晓林《文渊阁四库全书》电子版出版[J].图书馆,1999(6):28.

[5]程之.香港推出《文渊阁四库全书电子版》[J].出版参考,1999(16):12.

[6]赵雪云.以《四库全书》和《四部丛刊》电子版分析看我国古籍数字化的发展趋势与研究综述[D].河北师范大学,2010 :17— 18

[7]孙建越.中华古籍的数字化《文渊阁四库全书》电子版[J].中国电子出版,1999(4):17—18.

[8]刘博.基于文渊阁〈四库全书〉电子版分析的我国古籍数字化问题与对策研究[D].郑州大学,2006:1—2

[9]文渊阁四库全书电子版[EB].上海:上海人民出版社,1999:出版说明.

[10]《文渊阁四库全书》电子版开发流程[OL].[2016-6-29].http://www.sikuquanshu.com/project/main.aspx.

[11]文渊阁四库全书电子版[EB].上海:上海人民出版社,1999:出版说明.

[12]张轴材.《四库全书》电子版工程与中文信息技术[J].电子出版,1999(2):3—6.

[13]文渊阁四库全书电子版[EB].上海:上海人民出版社,1999:凡例.

[14]王荟,肖禹.汉语文古籍全文文本化研究[M].北京:国家图书馆出版社,2012:105.

[15]张轴材.《四库全书》电子版工程与中文信息技术[J].电子出版,1999(2):3—6.

[16]刘博.基于文渊阁《四库全书》电子版分析的我国古籍数字化问题与对策研究[D].郑州大学,2006.

[17]文渊阁四库全书电子版[EB].上海:上海人民出版社,1999:出版说明.

[18]文渊阁四库全书电子版[FB].上海:上海人民出版社,1999:出版说明.

[19]张轴材.《四库全书》电子版工程与中文信息技术[J].电子出版,1999(3):3—6.

[20]文渊阁四库全书电子版[EB].上海:上海人民出版社,1999:凡例.

[21]《文阁四库全书》最新3.0版(内联网版/网上版)产品小册子[OL].[2016-6-29].http://www.sikuquanshu.com/Html/GB/product/download/3.0leaflet_gb.pdf.

[22]中国基本古籍库不属于版式文本,中国史学库和明清档案库未出版,故未列出。

[23]四库系列数据库[OL].[2016-6-29].http://www.sikuquanshu.com/project/main.aspx.

[24]中国方志库[OL].[2016-6-29].http://er07.com/home/pro_87.html.

[25]中国谱牒库[OL].[2016-6-29].http://er07.com/home/pro_5.html.

[26]中国金石库[OL].[2016-6-29].http://er07.com/home/pro_6.html.

[27]中国丛书库[OL].[2016-6-29].http://er07.com/home/pro_7.hml.

[28]中国辞书库[OL].[2016-6-29].http://er07.com/home/pro_9.html.

[29]中国经典库[OL].[2016-6-29].http://er07.com/home/pro_10.html.

[30]中国俗文库[OL].[2016-6-29].http://er07.com/home/pro_12.httm1.

[31]历代别集库[OL].[2016-6-29].http://er07.com/home/pro_13.html.

[32]敦煌文献库[OL].[2016-6-29].http://er07.com/home/pro_14.hml.