1
古籍文本数据格式比较研究
1.7.1.1 一、源起
一、源起

语义文本数据有两个主要来源:其一,语言学领域的古代汉语语料库;其二,古籍数字化领域的内容标注和数据抽取。

(一)语料库

语料库(corpus)是存放语言材料的仓库(或数据库)[2]。语料库是指为某一个或多个应用而专门收集的、有一定结构的、有代表性的、可以被计算机程序检索的、具有一定规模的语料的集合[3]

语料库自上世纪70年代末以来在我国逐渐兴起、发展,取得了长足的进步,古代汉语语料库与现代汉语语料库相比较而言,无论规模还是影响,都有明显的差距;目前古代汉语语料库的类型主要有文本型和数据库型两种;文本型就是把纸质文献上的文字输入计算机,用文本软件自有或专用软件提供的搜索功能进行检索,又可以分为平面型和层级型两种;数据库型的语料库可分生语料库(没有对语料进行标注等加工处理)和熟语料库(对语料进行了标注等加工处理)两种,生语料库可再细分为平面型生语料库和层级型生语料库;平面型生语料库代表产品在大陆以单机版“国学宝典”、“汉籍全文检索系统”等为代表,港台则以香港中文大学“汉达古籍资料库检索系统”、中华电子佛典协会的“CBETA大正藏检索系统”、台湾地区“中央研究院”的“瀚典”系统(未标注的语料部分)等为代表;层级型生语料库以“四库全书”、“龙语瀚堂”等为代表;熟语料库以台湾地区“中央研究院”的“瀚典”系统、“近代汉语标记语料库”等为代表[4]

毛建军在《古汉语电子语料库资源与类型概述》[5]中将古汉语语料库分为字词索引型语料库、工具书型语料库和标记型语料库三种类型;字词索引型语料库是古汉语语料库建设的早期试验性成果,重在对单一古籍文献或某类型古籍文献进行字、词频率统计或对词汇、语法现象进行归纳统计;工具书型语料库主要是对已存在的古籍工具书或重新整理编撰的、以古代语言文字为内容的工具书进行数据加工,从而生成新的计算机检索系统,通常应具有多种功能,如单字查询、批字查询、按码查询、按频查询、指定外部字符子集文件查询等;标记型语料库是较高层次的古汉语语料库,对语料进行词性码、语法码、语义码的标注。

杨建军在《汉语古籍语料库的建立原则》[6]中认为汉语古籍语料库是一个统一、开放的动态资源库,是整个古汉语研究的平台,其建设是一项系统的语言工程,在对语料库进行规划时,必须根据汉语古籍语料的特点来确立建库原则:完整性,就是要收录古籍的全文,而不采用随机择句或择段的形式;穷尽性,即凡可以作为古汉语研究语料的古籍都要收录,既包括传世文献,也包括出土材料;准确性,就是将文献转换成电子文本时必须“保真”;纯粹性,即坚持数据和方法分离,原料和加工分开;开放性,语料库应是一个开放的资源库,在建设和应用两个方面,都应以网络为依托实现共建和通用;稳定性,即存储语料数据的代码应当是稳定的、共通的。在《汉语古籍语料库的建立方法》[7]中提出以语言工作者为主体力量建立汉语古籍语料库,包含规划、文献电子化、电子文本整理和校勘、语料入库等步骤。

化振红在《深加工中古汉语语料库建设的若干问题》[8]中指出对熟语料库来说,词的切分是所有标注工作的前提,是任何一个标注型汉语语料库都无法回避的问题;现代汉语语料库的加工已经有了一整套科学性、通用性较高的分词规范,而古代汉语与现代汉语又有着显著差别,在古代汉语语料库建设过程中,词的切分不可能照搬现代汉语的做法;古代汉语中,对词的切分及标注存在较大影响的词的特点体现在“词类划分尚未形成统一认识”和“词与词组缺乏客观判断标准”两方面。

(二)内容标注

在古籍数字化领域,文本数据能支持基于字符串比对的检索功能,如果要提高检索的查全率、查准率、智能化程度、专业化程度等,就必须对文本数据进行内容标注。以北京大学数据分析研究中心的“全唐诗分析系统”(如图6-1所示)为例,除了标注题名、著者、体例等,还重点标注了唐诗的格律,支持诗题、作者、诗韵、平仄等检索。再以北京大学数据分析研究中心的“二十五史研习系统”(如图6-2所示)为例,在中华数据点校本《二十四史》及《清史稿》的基础上,使用时间、地点、职官、文献等本体进行数据标注,提供了基于全文索引的精细检索工具,针对阅读中用户关心的片段,随时能够进行区分正文与注释等不同内容的关联检索、统计与导航,以便用户在阅读的同时查阅相关资料、扩展自己的阅读范围,以达到辅助研究、学习的目的[9]

图6-1 全唐诗分析系统[10]

图6-2 二十五史研习系统[11]

(三)数据抽取

在古籍数字化领域,文本数据的另一类应用方式是数据抽取,即依据某一主题,提取多种古籍文献中的内容片段,并将这些内容片段构成新的数据或数据集合。若要求古籍数据抽取实用化和工程化,就要以文本碎片化为基础。

文本碎片化是将文本数据按语义拆解为文本片段,每个文本片段能够表达独立语义且不可再分。同时,每个文本片段具有所属文献、所在位置、时间、空间、主题等属性,通过描述可以重构为卷、篇、章、节、段落等数据对象,低级别数据对象(如段落)自动继承高级别数据对象(如卷)的属性。文本碎片可以直接应用于古籍自动编纂、自动辑佚、自动校勘、数据抽取、智能检索等领域。

以国家科技支撑计划“基于方志和古地图的文化旅游信息资源处理与整合”课题(2013BAH67F04)为例,为了获取方志文献中的地名、人物、景观等信息,基于《大清一统志》版式文本数据进行碎片化,生成文本片段超过10万个,如图6-3所示;每个文本片段包含序号、题名、又名、文本、主题、来源、时间信息、地理信息、备注等字段;在文本碎片的基础上,筛选出主题为山川、城池、关隘、堤堰、古迹、祠庙、寺观、陵墓、学校、人物等文本片段约5万个,生成专题资料库,并与文化旅游资料库和古地图GIS进行整合。

图6-3 《大清一统志》文本碎片示例表