1
古籍文本数据格式比较研究
1.7.1.2 二、现状
二、现状

目前,语义文本数据的应用实例并不多,尤其是大规模应用型项目。台湾地区“中研院古汉语语料库”、“北大CCL古代汉语语料库”、“国家语委古籍语料库”、“中华古籍语料库”等项目各具特色,“汉语史语料库建设研究”是最具代表性的研究项目。

(一)台湾地区“中研院古汉语语料库”

“中研院古汉语语料库”[12](AcademiaSinicaAncientChineseCorpus)的建构始于1990年,创始者为黄居仁、谭朴森、陈克健、魏培泉等,目标只是搜集上古汉语的素语料。“中研院古汉语语料库”是应汉语史研究需求而建构的语料库,这个语料库又可依是否经过断词及加标词类而分成两类,即未加标的素语料库以及有标注的标记语料库。目前素语料库所搜集的语料已含盖上古汉语(先秦至西汉)、中古汉语(东汉魏晋南北朝)、近代汉语(唐五代以后)大部分的重要语料,并已陆续开放使用;在标记语料库方面,上古汉语及近代汉语都已有部分语料完成标注的工作,并视结果逐步提供上线检索[13]。“中研院古汉语语料库”包含“古汉语素语料库”、“上古汉语标记语料库”(如图6-4所示)、“近代汉语标记语料库”(如图6-5所示)等子库。

图6-4 “中研院上古汉语标记语料库”[14]

图6-5 “中研院近代汉语标记语料库”[15]

“古汉语素语料库”[16](http://ancientchinese.sinica.edu.tw/)的构建自1990年未曾停歇,语料也由上古汉语扩充到中古汉语和近代汉语,这个搜集工作的持续基本上是由魏培泉负责执行。上古汉语语料的标注自1995年开始进行,近代汉语的标注也从1997年开始规划,随后即付诸实行,主其事者为魏培泉与刘承慧。在标注及搜检的技术方面则有黄居仁、陈克健及本院计算中心的协助。

“上古汉语标记语料库”[17](http://app.sinica.edu.tw/kiwi/akiwi/index.html)网络版所有功能均开放使用,仅以检索结果为限制的条件:本地检索限两万行数据,远程检索限两千行数据。

“近代汉语标记语料库”[18](http://early_mandarin.ling.sinica.edu.tw/)网络版于2001年首次开放使用,首先提供查询的文献为《红楼梦》及《三遂平妖传》。本语料库的查询功能和断词标类的凭准大抵与“中研院现代汉语语料库”相同,但也有其特色。如在查询功能方面,可以在显示词项及其词类之余同时显示例句的出处,以便于历史语法的研究者使用;在断词标类的凭准方面,也因着眼不同而作了一些变动,如动补结构标示得较详尽即为一例。

(二)北大CCL古代汉语语料库

北京大学汉语语言学研究中心(Center for Chinese Linguistics PKU)古代汉语语料库(http://ccl.pku.edu.cn:8080/ccl_corpus/),截至2016年5月,规模已达201,668,719字[19]。该语料库仅供语言研究参考之用,语料本身的正确性需要用户自行核实;语料库中的中文文本未经分词处理,检索系统以汉字为基本单位;主要功能包括支持复杂检索表达式(如不相邻关键字查询、指定距离查询等)、支持对标点符号的查询(如查询“?”可以检索语料库中所有疑问句)、支持在“结果集”中继续检索、用户可定制查询结果的显示方式(如左右长度、排序等)、用户可从网页上下载查询结果(text文件)等[20]。如图6-6所示。

图6-6 北大CCL古代汉语语料库[21]

(三)国家语委古籍语料库

国家语委古代汉语语料库(http://www.cncorpus.org/ACindex.aspx)包含自周至清各朝代的约1亿字语料,含四库全书中的大部分古籍资料;该语料库未经标注,支持全文检索、模糊检索,支持语料出处、关键词居中(KWIC)排列显示等[22]。如图6-7所示。

图6-7 国家语委古代汉语语料库[23]

(四)中华古籍语料库

“中华古籍语料库”[24]是2003年由中国出版集团公司所属中华书局启动的项目,目前已完成了2亿多字已整理出版经典古籍的数字化工作,数据差错率控制在万分之一以下,可以说是目前质量最高的古籍数字资源,该语料库按照复合出版的构想,已经成功应用在中华书局经典古籍的文本自动化处理、再版制作、纸质书印刷等方面,如“二十四史”的修订底本生成。同时,基于语义网络技术,中华书局实验开发了《资治通鉴分析系统》,该系统能将《资治通鉴》中的人名、地名、职官、事件等等分类检索和分析,提供了基于语义的查询检索、基于信息重组的分类导航、基于扩展知识服务的阅读浏览功能。

(五)“汉语史语料库建设研究”项目

“汉语史语料库建设研究”项目[25]是国家社会科学基金重大项目,项目编号(10&ZD 117),项目负责人董志翘,该项目的目标是:建成国内首个可用于汉语史研究的由多个子库组成的收录原始语料1000万字,库容1600万字的具有多集合特点的深加工中古汉语语料库(内容上是中古汉语代表性语料的集合,结构上是校勘库、义项库、语法库等多库的集合,功能上是自动分词软件、自动标注软件、检索系统软件等多种功能软件的集合。为汉语史语料库的建设作一些理论上的探讨及实践上的尝试,为汉语史研究(特别是中古汉语史的研究) ,提供一个比较实用的操作平台;在中古汉语语法体系、中古汉语词汇系统、中古汉语语料库建设理论研究方面有所突破,产生相关的指导性理论论著;研制出“中古汉语语料库检索系统”、“中古汉语自动分词系统”、“中古汉语词义自动标注系统”、“中古汉语异文发现软件”等一系列相关软件。

该项目由四个子项目组成:“深加工中古汉语语料库语料鉴别与整理研究”子项目,负责人方向东;“深加工中古汉语语料库建设研究”子项目,负责人化振红;“深加工中古汉语语料库理论研究”子项目,负责人黄征;“深加工中古汉语语料库系统平台建设与研究”子项目,负责人陈小荷。

该项目的特点是:语料覆盖中古阶段,内容分布于各个领域(文学典籍、史籍、佛藏、道藏、医籍、农书等) ,在注重传世文献收录的同时,也关注出土文献(包括部分敦煌吐鲁番文书、石刻资料、简牍文献)的收录,注重语料的鉴别与校勘,进行精细加工(选择大规模代表性强的中古汉语重要语料并进行校对、词语切分和标注、古汉语频率词典、词语知识库、人名、地名知识库的构建等) ;功能全面、使用便捷,参考、吸收现有语料库的设计,提供更方便快捷而全面实用的功能;首次提出与现代汉语信息处理完全不同的适合古汉语的新方法,这种新方法不仅可以用于词汇知识挖掘,将来也可以用于语法知识挖掘;首次提出古汉语古籍版本异文信息处理的任务,用计算机自动发现版本异文;预期成果中的词汇知识库是新型的词汇知识库,可以为中古汉语词汇研究提供丰富的素材和快捷便利的检索手段;技术先进,产权自主,采用Apache服务器、Mysql数据库、Zend数据引擎及PHP脚本语言,结合自行设计的软件,使成果能自由、独立地使用[26]