1
古籍文本数据格式比较研究
1.5.1.3 三、数据模型
三、数据模型

位置文本数据模型描述对象为古籍原本、古籍影印本等,由文字、符号(非修饰性、非格式控制)和位置信息组成,除文字和符号的排列顺序外,不考虑版式,只描述图形、图像、表格等对象中的文字和符号,而结构对象以描述古籍物理结构为主,按项目需求描述逻辑结构。

(一)结构对象

位置文本数据与古籍图像是一一对应关系,常见的古籍图像画幅构成模式包括叶、半叶和双半叶,如表2-4所示。位置文本数据以画幅为基本单位,若干画幅构成一卷(或册),若干卷(或册)构成书,若干种书构成丛书;一个画幅由若干区域构成,每个区域由若干字位(每个字符所占据的面积)构成。

在位置文本数据模型中,结构对象描述以古籍物理结构为主,使用series(丛书)、book(书)、volume(卷/册)、page(叶/半叶/双半叶)、region(区域)等标签。区域是一个相对概念,既可以指版框、行等,也可以指单个或多个字符。同时,也可以按项目需求描述逻辑结构。仍以图2-22为例,《马嵬志》卷首第五叶右半叶的XML描述如例4-1所示。

例4-1:

若结构对象需要描述逻辑结构,使用catalog(目录)、series(丛书)、book(书)、heading Num(标目编号)、heading(标目)、heading Note(标目注释)、serial Num(层级编号)、starting Page(起始叶)、pageNum(叶数)等标签。仍以《[光绪]顺天府志》为例,如例4-2所示。

例4-2:

(二)简单对象

在位置文本数据模型的简单对象中,文字和符号是描述的重点,同时要描述文字和符号的位置属性。而图形和图像仅描述其中的文字。

1.文字

字符集中的文字可以直接输入,使用character(字符)标签描述;集外字用gaiji(外字)标签描述;文字的位置属性用region(区域)、positionA(顶点A)和positionB(顶点B)标签描述。其中region标签表示文字所在的区域,positionA表示区域的左上顶点,positionB表示区域的右下顶点,通过positionA和positionB可以唯一确定区域。仍以图3-7为例,[民国]松阳县志卷六第二十六叶第11行,XML描述如例4-3所示。

例4-3:

【注释】

[1]刘英.OCR技术在简牍图像数字化中的应用[D].成都理工大学,2007:4—5

[2]章杰鑫,潘悟云.古籍数字化技术的新思路[J].语言研究,2014(1):124—126.

[3]古籍数字对象制作规范[OL].[2016-6-29].http://www.cadal.cn/softdown/bs_bz04.pdf

2.符号

字符集中的标点符号和专类符号可以直接输入,字符集中未包含的标点符号和专类符号替换为“●”(U+25CF),校对符号和版式符号可直接忽略。位置属性的描述方式与文字相同,此处不再赘述。

3.图像

图像只描述其中的文字,使用image(图像)、region(区域)、character(字符)等标签。仍以图2-23为例,《[嘉靖]隆庆志》之《州境之图》的XML描述如例4-4所示。

例4-4:

4.图形

描述方式与图像相同,此处不再赘述。

(三)复杂对象

在位置文本数据模型的复杂对象中,版式可直接忽略,大小字、墨围和墨盖子只描述文字和位置属性,而表格、图形组合和特殊图像仅描述其中的文字。

1.大小字

大小字用region(区域)、character(字符)等标签描述,使用region标签的level(级别)属性值来区分大小字,若每个文本行的level属性值为“1”,每行大字的level属性值为“2”,每个大字的level属性值为“3”,每行小字的level属性值为“2”,每个小字的level属性值为“3”。仍以图2-31为例,《[乾隆]西宁府新志》卷十四第九叶第14行的XML描述如例4-5所示。

例4-5:

2.墨围

墨围用region(区域)、character(字符)等标签描述,使用region标签的level(级别)属性值来区分墨围和墨围中的文字,若墨围的level属性值为“2,墨围中每个字的level属性值为“3”。仍以图2-32为例,《[乾隆]宝山县志》卷一第三十叶第10行的XML描述如例4-6所示。

例4-6:

3.墨盖子

描述方式与墨围相同,此处不再赘述。

4.表格

表格用table(表格)标签描述,其中的文字用region(区域)、character(字符)等标签描述。仍以图2-39为例,《[光绪]顺天府志》卷八十九第一叶如例4-7所示。

例4-7: