1
古籍文本数据格式比较研究
1.4.1.3 三、数据模型
三、数据模型

纯文本数据模型描述对象为古籍原本、古籍影印本、古籍点校本等,由文字和非修饰性、非格式控制(回车符和换行符除外)符号组成,忽略复杂版式、图形、图像、表格等对象,对版式做简化处理,而结构对象要同时描述古籍物理结构和逻辑结构,或按项目需求进行简化。

(一)结构对象

在纯文本数据模型中,结构对象描述要兼顾古籍原本、影印本、点校本等,既可以描述古籍物理结构或逻辑结构,又可以同时描述物理结构和逻辑结构,使用series(丛书)、book(书)、bookNumber(册)、volume(卷)、page(叶或页)、column(栏)、part(篇章)、paragraph(段落)、line(行)等标签。同时,也可以按项目需求进行扩展或简化。以图3-6为例,《大正新修大藏经》第1册第1页第1栏第1至8行的XML描述如例3-1所示。

图3-6 《大正新修大藏经》样张

例3-1:

仍以图3-6为例,若结构对象只描述逻辑结构,使用series、book、volume、page、part、paragraph等标签。《大正新修大藏经》之《长阿含经》第一卷之《长阿含经序》第1至4段的XML描述如例3-2所示。

例3-2:

(二)简单对象

在纯文本数据模型的简单对象中,文字和符号是描述的重点,忽略文字和符号的属性。图形和图像可直接忽略,或进行最简描述。

1.文字

字符集中的文字可以直接输入,使用lineText(行文本)标签描述;集外字用台湾“中研院”汉字构形(如表3-4所示)、CBETA组字式(如表3-5所示)等表示,使用gaiji(外字)标签描述,在文本文件中表示为“[xxx]”(xxx表示汉字构形或组字式)。

表3-4台湾地区“中研院”汉字构形规则[23]

表3-5 CBETA组字式规则[24]

以图3-7为例,[民国]松阳县志卷六第二十六叶第11行,XML描述如例3-3所示,在文本文件中表示为“[?][門-?](音故貫閉門聲也)彳亍(音剃泰步聲也)邋遢(音蠟塌齷齪也)”。

图3-7 古籍样张44[25]

例3-3:

2.符号

字符集中的标点符号和专类符号可以直接输入,字符集中未包含的标点符号和专类符号替换为“●”(U+25CF),校对符号和版式符号可直接忽略。以图2-14为例,《鹿邑县全图》卷首《鹿邑县图条例》的XML描述如例3-4所示。

例3-4:

空格符使用space标签描述,仍以图3-7为例,[民国]松阳县志卷六第二十六叶第11行,XML描述如例3-3所示。注释编号使用noteNumber标签描述,仍以图3-6为例,《大正新修大藏经》之《长阿含经》第一卷之《长阿含经序》第1至4段的XML描述如例3-2所示。

3.图像

图像可直接忽略,也可使用image(图像)标签描述,在文本文件中表示为“【图】”。仍以图2-23为例,《[嘉靖]隆庆志》之《州境之图》的XML描述如例3-5所示。

例3-5:

4.图形

描述方式与图像相同,此处不再赘述。

(三)复杂对象

在纯文本数据模型的复杂对象中,大小字、墨围和墨盖子是描述的重点,忽略版式。表格、图形组合和特殊图像可直接忽略,或进行最简描述。

1.大小字

大小字用lineText(行文本) 、mutliText(小字多行) 、singleText(小字单行)等标签描述,在文本文件中表示为“XXX(XXX)”(XXX表示文字)。仍以图2-31为例,《[ 乾隆] 西宁府新志》卷十四第九叶第14行的XML描述如例3-6所示。

例3-6:

2.墨围

墨围用moWei(墨围)标签描述,在文本文件中表示为“【□XXX】”(XXX表示墨围中的文字)。仍以图2-32为例,《[乾隆]宝山县志》卷一第三十叶第10行的XML描述如例3-7所示。

例3-7:

3.墨盖子

墨盖子用moGaiZi(墨盖子)标签描述,在文本文件中表示为“【■XXX】”(XXX表示墨围中的文字)。仍以图2-34为例,《[乾隆]凤翔府志》卷五第一叶第11行的XML描述如例3-8所示。

例3-8:

4.表格

表格用table(表格)标签描述,在文本文件中可直接忽略,也可以表示为“【表】”。仍以图2-39为例,《[光绪]顺天府志》卷八十九第一叶和第二叶的XML描述如例3-9所示。

例3-9:

5.图形组合

描述方式与图像相同,此处不再赘述。

6.特殊图像

描述方式与图像相同,此处不再赘述。