1
古籍文本数据格式比较研究
1.7.1.3 三、数据模型
三、数据模型

语义文本数据模型描述对象为古籍原本、影印本、点校本等,由内容信息、标注信息和结构信息组成。内容信息来自源文本,保留部分与内容密切相关的版式信息;标注信息包括原书隐含语义信息描述和附加语义信息描述;结构信息表示文本碎片之间的结构关系和属性继承关系。

(一)结构对象

语义文本数据由文本碎片组成,文本碎片用block标签描述,用level属性描述文本碎片的层级。文本碎片可分为两类:一类为基本文本碎片,即能够表达完整语义的最小文本单元,level值为0或1,0表示不用于生成组合文本碎片,1表示可用于生成组合文本碎片;另一类为组合文本碎片,由多个level值为1的基本文本碎片组成,能够表达复杂的语义,level值为N(N=2,3……)。基本文本碎片还可以再划分为部分,用part标签描述,用level属性描述部分的层级;部分再可划分为句,用sentence标签描述;句再可划分为词,用word标签描述。仍以《[康熙]永年县志》为例,如图3-13所示,XML描述如例6-1所示。

例6-1:

(二)内容对象

语义文本数据的内容对象既包含文字、符号、图形、图像等简单对象,又包含大小字、墨围、墨盖子、表格、图形组合、特殊图像等复杂对象。内容对象来源于已有的文本数据,内容信息直接保留,如文字、符号、大小字等;包含语义信息的版式转换为属性标注,如图形、图像、墨围、墨盖子、表格、图形组合、特殊图像等;其他版式可直接忽略。

1.图像

图像作为一个整体描述,使用image(图像)、region(位置)、imgLink(图像链接)、imgText(图内文字)等标签描述图像,使用title(图像名称)、subject(主题)、time(时间)、place(空间)、width(图像宽)、height(图像高)、resolution(分辨率)、color(颜色)、compressRatio(压缩比)等属性描述标注信息。仍以《大清一统志》为例,如图3-14所示,XML描述如例6-2所示。

例6-2:

2.图形

描述方式与图像相同,此处不再赘述。

3.表格

表格可以作为一个整体描述,使用table(表格)、titleDescription(表格描述)、firstRow(首行)、firstColumn(首列)、cell(单元格)等标签描述表格,使用title(表格名称)、subject(主题)、time(时间)、place(空间)、rowNum(行数)、columnNum(列数)等属性描述标注信息。仍以《大清一统志》为例,如图3-14所示,XML描述如例6-3所示。

例6-3:

表格也可以用另一种方式描述,每个单元格为一个文本碎片,level值为1,行和列的信息转为属性标注;表格整体为一个文本碎片,level值为2,单元格作为低一级的文本碎片,用标签subBlockArray描述。仍以《大清一统志》为例,如图3-14所示,XML描述如例6-4所示。

例6-4:

(三)标注对象

标注信息用于描述原书隐含语义信息或附加语义信息,是语义文本与其他类型文本的重要区别。标注对象包括文本碎片属性、句型、词性等,依据项目需求既可以扩展,也可以部分省略。

1.文本碎片属性

文本碎片用block标签描述,每个文本碎片包含三类属性:其一,文本碎片的状态属性,用blockState属性描述,表示碎片化的程度;其二,文本碎片的层级属性,用level属性描述,表示文本碎片所处的层级,也是结构对象的一部分;其三,文本碎片的内容属性,常用的包含时间(time)、空间(place)、主题(subject)等。如例6-4所示。

2.句型

目前古汉语通行的划分句型的标准主要是根据句子中谓语的类型,按照这个标准常见句型可以分为三类:叙述句、描写句和判断句,这三类句子分别用动词性词语、形容词性词语和名词性词语做谓语;在区分句型时,仅仅考虑谓语的性质,并不足以充分反映主语和谓语之间的结构关系;根据主语和谓语之间的结构关系,古汉语句型可分为两类:叙说句和论断句,叙说句可再分为叙事句和说明句两个次类;另外还有三类比较特殊的句型:有无句、背景句和分类句,有无句和背景句属于叙事句,分类句属于论断句[27]

每种句型的特点如表6-1所示,在语义文本XML中,句子用sentence标签描述,句型用sentenceMold属性描述,如例6-1所示。

表6-1 句型表[28]

续表

3.词类

化振红在《深加工中古汉语语料库建设的若干问题》[29]中指出:古代汉语中,对词的切分及标注存在较大影响的词的特点,体现在两个方面:第一,词类划分尚未形成统一的认识,国内比较通行的语法体系中,词类数量有种种不同说法,《暂拟汉语语法教学系统》将汉语的词划分为11类(名词、动词、形容词、数词、量词、代词、副词、介词、连词、助词、叹词),大学语法教科书一般分为12至14类,黄伯荣、廖序东分为14类,胡裕树分为13类,朱德熙分17类,郭锐分19类,《马氏文通》分9类,之后各种语法体系通常增加1到2类,如殷国光分11类,针对古代汉语的具体情况,往往还会在较复杂的词类下面细分若干小类,如郭锡良把代词分成了人称代词、指示代词、疑问代词、无定代词4个小类,副词分为程度副词、范围副词等6个小类,此外,古代汉语中还包含较普遍的兼类、活用现象,同样是一个相当棘手的问题;第二,词和词组缺乏客观性的判断标准,这一问题从20世纪50年代起开始困扰汉语词汇研究,至今未得到圆满解决,陆志韦《北京话单音词词汇》序言较早提出这个问题,引发了学术界的热烈讨论,王力、吕叔湘、林汉达、孙常叙先后提出了一些区分词和词组的具体方法,80年代以后,这方面研究更加深入,刘叔新提出“准词”概念以指称那些处于从自由词组向词过渡的中间状态的语言单位,也有不少学者讨论古代汉语中词和词组的界限,张永言提出以词的分离性为主要标准、以结构的整体性为补充标准、以意义的整体性为辅助标准,殷国光提出“过渡词”之说,与刘叔新的“准词”可谓殊途同归,这些研究对中古汉语语料库中词的切分具有重要的参考价值;简而言之,学者们对辨别词和词组的方法达成了几点共识:①扩展法,能插入其他成分进行扩展的是词组,反之,是复合词;②词组的意义能够通过字面综合出来,复合词的意义则不能通过构成成分的简单相加而得出;③词组的构成成分能够颠倒次序,复合词则不能;④词组的内部结构比较松散,复合词的内部结构比较紧密;⑤组成成分里有粘着语素的,一般是复合词;这些方法基本上可以解决现代汉语中词和词组的界限问题,用于中古汉语,仍然存在一些问题,主要原因在于中古阶段相当多的词语经历了从自由词组到词的凝固过程,中间确实存在亦此亦彼的“准词”状态,对于每一个具体的词,这个渐进的过程何时完成,虽然有时可以借助工具书,并综合其特定时期的出现频率以及上下文语境做出初步判定,但在更多情况下,这种判定仍然存在很大的难度。

“汉语史语料库建设研究”项目的词类划分采用汉语史学者普遍认可的、比较容易操作的标准,共分13类,借鉴现代汉语语料库的做法,对部分较为复杂的词类预设出若干小类及相应的标记符号,如表6-2所示,不同于“中研院”上古汉语语料库的词类划分,如附录六所示。

在语义文本XML中,词用word标签描述,句型用wordClass属性描述,如例6-2所示。

表6-2词类表

续表