二、现状
目前,纯文本数据的应用实例非常多,互联网上开放下载的古籍文本绝大多数是纯文本数据。“汉籍电子文献资料库”、“CBETA电子佛典集成”、“中国基本古籍库”、“古籍电子定本工程”等项目各具特色,“汉籍全文数字化工作流程指南”是最具代表性的纯文本数据加工规范。
(一)汉籍电子文献资料库
“汉籍全文数据库计划”的建置肇始于1984年,为“史籍自动化计划”的延伸,开发的目标是为了收录对中国传统人文研究具有重要价值的文献,并建立全文电子数据库,以作为学术研究的辅助工具;“汉籍全文数据库”是目前最具规模、数据统整最为严谨的中文全文数据库之一;数据库内容包括经、史、子、集四部,其中以史部为主,经、子、集部为辅。若以类别相属,又可略分为宗教文献、医药文献、文学与文集、政书、类书与史料汇编等,二十余年来累计收录历代典籍已达934种(新增书目),5亿2596万字,内容几乎涵括了所有重要的典籍[5]。数据库新增典籍如表3-1所示。
续表

中文信息技术有计划地应用在中文文献数据的处理上,当属台湾“中研院”于1984年7月开始的“史籍自动化计划”为最早,该计划为开发《廿五史》全文数据库而成立,其基本目的是选择对中国传统人文研究具有重要价值的古代文献,建立计算机全文数据库,作为学术研究的辅助工具。在输入文献的选择上,以“中研院”研究人员的专长与兴趣为主要考虑,第一年先将部分的《食货志》建立全文机读档案,第二年持续将《廿五史》全部的《食货志》建文件,在功能上也往前推进一大步,其后《廿五史》全部数据亦陆续建立[6]。《廿五史》的底本为台湾地区鼎文书局翻印的大陆中华书局点校本,如图3-1所示。
(二)CBETA电子佛典集成
CBETA(Chinese Buddhist Electronic Text Association,中华电子佛典协会),成立于1998年,旨在收集所有的汉文佛典,以建立电子佛典集成;研发佛典电子化技术,提升佛典交流与应用;利用电子媒体之特性,以利佛典保存与流通;期望让任何想要阅藏的人都有机会如愿以偿[8]。目前,已完成数字化的典籍如表3-2所示。在2016年6月发布的佛典集成最新版中,将增加“大藏经补编”(共36册,约2300万字)和佛寺志(15部,约145万字)[9]。
表3-2 CBETA电子佛典集成2014版收录典籍数量表[10]

续表

普及版是CBETA佛典集成最基础的版本格式;格式是一卷一档,每一行皆有原书的行首信息,断行位置依原书格式;经文中只要是非BIG5字符集的文字会优先采用意义相同的通用字,若无通用字则使用组字式;若CBETA对经文有所修订,则采用修订后的文字,而校勘方面的标号及文字皆不呈现[11]。
普及版为一般文本文件的格式,可利用任何支持中文BIG5码的文本编辑器或是浏览器阅读编辑;直接使用“【图】”来表示《大正藏》原书中的图形;使用“◇”来表示单一梵文悉昙字,“【◇】”则表示二个字以上连续的梵文悉昙字[12];每行经文之前的行首信息《大正藏》作“Txn“o”yyyyopzzzzal”,“T”表示大正藏(Taisho)经文,“x”表示册数,“n”固定不变(表示后面接经号) ,“yyyy”表示大正藏经号,大写之A、B ⋯表示《大正藏》有记载之同经号之别本,小写之a、b⋯⋯表示《大正藏》没有记载之同经号之别本,“_”表示完全没有同经号资料者,“p”固定不变(表示后面接页码) ,“zzzz”表示页码,“a”表示第几栏,a表示上栏,b表示中栏,c表示下栏,“l ”表示在该栏的行数[13]。如图3-2所示。
XML版本基于TEI[14]指南(P5版本),此为CBETA佛典电子化工程的一个重大里程碑,如图3-3所示。该版本的内码全部使用统一码(Unicode),Unicode中没有对应的汉字,则使用TEI“缺字”(gaiji)模块,能让每个单一字符与国际开放标准相符合,如此更有利于进行文献互换,并可由所有符合XML的工具加以处理。整套的档案说明文件使用标准TEIODD引伸机制,并且依照三种文件定义语言的定义(DTD语言,W3CSchema语言,RelaxNG)[15]。
(三)中国基本古籍库
中国基本古籍库是综合性的全文检索版大型古籍数据库,列为国家重点电子出版物;由北京大学教授刘俊文总策划、总编纂、总监制,北京爱如生数字化技术研究中心开发制作;中国基本古籍库分为4个子库、20个大类、100个细目,精选先秦至民国历代重要典籍,包括流传千古的名著、各学科基本文献和拾遗补缺的特殊著作,各据通行善本,采用爱如生独有的数字化技术制成数码全文,另附1-2个珍贵版本的原版影像;总计收书1万种、17万卷,版本12500个、20万卷,全文17亿字、影像1200万页,数据总量330GB,其收录范围涵盖全部中国历史与文化,其内容总量相当于3部《四库全书》;不但是全球目前最大的中文古籍数字出版物,也是中国有史以来最大的历代典籍总汇;中国基本古籍库可从多条路径和可用多种方法进行海量检索,检索速率快至毫秒,同时拥有10项基本功能和2个辅助工具,可轻松实现从研读、批注到下载、打印的一站式作业;中国基本古籍库全库已于2005年出版,并已经过7次更新升级,目前主流版本为V7.0[16]。如图3-4所示。
(四)古籍电子定本工程
“古籍电子定本工程”是首都师范大学电子文献研究所与北京国学时代文化传播股份有限公司针对目前古籍电子版本错讹多,信誉低,仅能用于查询索引,难以准确引用的弊端,动员多方力量,经过三年艰苦努力,于2008年11月完成的古籍整理软件平台;凡列入该工程的古籍书目,均将依据严格的标准和流程加工制作,最终可实现古籍电子化的零差错率;从而奉献给读者“水明沙净”的优质电子文本,达到使研究人员无需核查原书即可放心引用的目的[17]。
古籍电子定本遵循“择优而定,从善为本”的原则,慎重选择学界公认的权威版本为底本进行整理;每种书由一套底本原图和三套电子文本组成,包括原图版式简体、原图版式繁体和标点整理简体(网页格式,如图3-5所示);古籍电子定本以Unicode编码,以便于直接引用为目的;其对于底本的还原,不求纤毫毕肖,但求面目可识,规范化的同时,又不乏灵活性;古籍电子定本统一采用GSBN编号;古籍电子定本校勘编号表达式为“卷数-页码-列数/字数”;底本中的避讳字悉予保留,不作复原;底本中的异体字、俗体字及同音假借字等,一应保留原貌;由于抄刻习惯和时代、地域差异造成的异形字(如:教/教、廻/迴、達/逹、茲/兹、羣/群等)一般予以规范,合并统一为正形字;凡因底本残损污没所致之缺字等,悉据上下文及他本予以补全;凡属底本明显衍脱讹倒之处,均据他本予以订正,并出校勘说明;底本中若有特殊标注,如夹注、眉批、印章、画符等,一般不予处理;简体版字形统一使用《简化字总表》中的字形,《简化字总表》以外的生僻字,按照1992年新闻出版署、国家语言文字工作委员会发布的《出版物汉字使用管理规定》,一般不作偏旁简化和类推简化[18]。
(五)《汉籍全文数字化工作流程指南》
《汉籍全文数字化工作流程指南》是“台湾数字典藏与数字学习计划”(TELDAP)[19]分项计划“拓展台湾数字典藏计划”[20]编撰的“数字化工作流程丛书”之一,2011年正式出版。旨在描述特定对象的数字化实务与技术,便利读者针对单一对象,选择最合适、最有效益的数字化工作流程;为更多有志投入数字化工作的单位与个人,提供一套富有整体性思维并且又能循序渐进的实用指南[21]。
《汉籍全文数字化工作流程指南》全书共十章:第一章,前言;第二章,数字化工作流程图;第三章,前置作业;第四章,对象数字化程序;第五章,后设资料建置;第六章,数据库与其他应用;第七章,数字内容保护;第八章,设备与成本分析;第九章,委外制作;第十章,结语。
《汉籍全文数字化工作流程指南》中包含一系列加工规范,如“数字图像文件规格”、“数字文件命名原则”、“人工输入规则”(如表3-3所示)、“新增缺字系统”、“通用标记语言”等。
表3-3 人工输入规则[22]

续表
