全屏显示专题章节

1.4.1.3 三、数据模型

三、数据模型

纯文本数据模型描述对象为古籍原本、古籍影印本、古籍点校本等，由文字和非修饰性、非格式控制（回车符和换行符除外）符号组成，忽略复杂版式、图形、图像、表格等对象，对版式做简化处理，而结构对象要同时描述古籍物理结构和逻辑结构，或按项目需求进行简化。

（一）结构对象

在纯文本数据模型中，结构对象描述要兼顾古籍原本、影印本、点校本等，既可以描述古籍物理结构或逻辑结构，又可以同时描述物理结构和逻辑结构，使用series（丛书）、book（书）、bookNumber（册）、volume（卷）、page（叶或页）、column（栏）、part（篇章）、paragraph（段落）、line（行）等标签。同时，也可以按项目需求进行扩展或简化。以图3-6为例，《大正新修大藏经》第1册第1页第1栏第1至8行的XML描述如例3-1所示。

pagenumber_ebook=93,pagenumber_book=93

图3-6　《大正新修大藏经》样张

例3-1：

pagenumber_ebook=93,pagenumber_book=93

pagenumber_ebook=94,pagenumber_book=94

仍以图3-6为例，若结构对象只描述逻辑结构，使用series、book、volume、page、part、paragraph等标签。《大正新修大藏经》之《长阿含经》第一卷之《长阿含经序》第1至4段的XML描述如例3-2所示。

例3-2：

pagenumber_ebook=94,pagenumber_book=94

pagenumber_ebook=95,pagenumber_book=95

（二）简单对象

在纯文本数据模型的简单对象中，文字和符号是描述的重点，忽略文字和符号的属性。图形和图像可直接忽略，或进行最简描述。

1.文字

字符集中的文字可以直接输入，使用lineText（行文本）标签描述；集外字用台湾“中研院”汉字构形（如表3-4所示）、CBETA组字式（如表3-5所示）等表示，使用gaiji（外字）标签描述，在文本文件中表示为“[xxx]”（xxx表示汉字构形或组字式）。

表3-4台湾地区“中研院”汉字构形规则^[23]

pagenumber_ebook=96,pagenumber_book=96

表3-5　CBETA组字式规则^[24]

pagenumber_ebook=96,pagenumber_book=96

以图3-7为例，[民国]松阳县志卷六第二十六叶第11行，XML描述如例3-3所示，在文本文件中表示为“[？][門-？]（音故貫閉門聲也）彳亍（音剃泰步聲也）邋遢（音蠟塌齷齪也）”。

pagenumber_ebook=97,pagenumber_book=97

图3-7　古籍样张44^[25]

例3-3：

pagenumber_ebook=97,pagenumber_book=97

pagenumber_ebook=98,pagenumber_book=98

2.符号

字符集中的标点符号和专类符号可以直接输入，字符集中未包含的标点符号和专类符号替换为“●”（U＋25CF），校对符号和版式符号可直接忽略。以图2-14为例，《鹿邑县全图》卷首《鹿邑县图条例》的XML描述如例3-4所示。

例3-4：

pagenumber_ebook=98,pagenumber_book=98

pagenumber_ebook=99,pagenumber_book=99

空格符使用space标签描述，仍以图3-7为例，[民国]松阳县志卷六第二十六叶第11行，XML描述如例3-3所示。注释编号使用noteNumber标签描述，仍以图3-6为例，《大正新修大藏经》之《长阿含经》第一卷之《长阿含经序》第1至4段的XML描述如例3-2所示。

3.图像

图像可直接忽略，也可使用image（图像）标签描述，在文本文件中表示为“【图】”。仍以图2-23为例，《[嘉靖]隆庆志》之《州境之图》的XML描述如例3-5所示。

例3-5：

pagenumber_ebook=99,pagenumber_book=99

4.图形

描述方式与图像相同，此处不再赘述。

（三）复杂对象

在纯文本数据模型的复杂对象中，大小字、墨围和墨盖子是描述的重点，忽略版式。表格、图形组合和特殊图像可直接忽略，或进行最简描述。

1.大小字

大小字用lineText（行文本）、mutliText（小字多行）、singleText（小字单行）等标签描述，在文本文件中表示为“XXX（XXX）”（XXX表示文字）。仍以图2-31为例，《[ 乾隆] 西宁府新志》卷十四第九叶第14行的XML描述如例3-6所示。

例3-6：

pagenumber_ebook=100,pagenumber_book=100

pagenumber_ebook=101,pagenumber_book=101

2.墨围

墨围用moWei（墨围）标签描述，在文本文件中表示为“【□XXX】”（XXX表示墨围中的文字）。仍以图2-32为例，《[乾隆]宝山县志》卷一第三十叶第10行的XML描述如例3-7所示。

例3-7：

pagenumber_ebook=101,pagenumber_book=101

3.墨盖子

墨盖子用moGaiZi（墨盖子）标签描述，在文本文件中表示为“【■XXX】”（XXX表示墨围中的文字）。仍以图2-34为例，《[乾隆]凤翔府志》卷五第一叶第11行的XML描述如例3-8所示。

例3-8：

pagenumber_ebook=102,pagenumber_book=102

4.表格

表格用table（表格）标签描述，在文本文件中可直接忽略，也可以表示为“【表】”。仍以图2-39为例，《[光绪]顺天府志》卷八十九第一叶和第二叶的XML描述如例3-9所示。

例3-9：

pagenumber_ebook=102,pagenumber_book=102

5.图形组合

描述方式与图像相同，此处不再赘述。

6.特殊图像

描述方式与图像相同，此处不再赘述。