1
古籍文本数据格式比较研究
1.6.1.3 三、数据模型
三、数据模型

版式文本数据模型描述对象为古籍原本、古籍影印本等,由内容信息、版式信息和结构信息组成,可划分为头文件(HeaderFlie)和叶文件(PageFlie)。头文件描述古籍的整体信息,包括书目信息、卷目信息、默认版式信息、叶文件的逻辑结构等。叶文件与古籍图像一一对应,描述古籍的内容信息和版式信息。

(一)结构对象

版式文本数据由头文件和叶文件组成。头文件描述古籍书目信息、卷目信息、叶文件的逻辑结构、默认版式信息等。头文件使用fileHeader(文件头)、bibliographyMetadata(书目元数据)、catalog(卷目数据)、defaultFormat(默认版式)、gaijiList(集外字列表)等标签。仍以《[光绪]顺天府志》为例,头文件的XML描述如例5-2所示。

例5-2:

【注释】

[1]CJK汉字拆分项目数据文件[OL].[2016-6-29].http://hanzi.unihan.com.cn/CoolHanzi/data/download.asp?file=CJKDecomposed20080425V312.pdf.rar

[2]蒋贤春,翟喜奎.中文文献全文版式还原与全文输入XML规范和应用指南[M].北京:国家图书馆出版社,2010:3.

[3]王荟,肖禹..汉语文古籍全文文本化研究[M].北京:国家图书馆出版社,2012:143—154

叶文件与古籍图像是一一对应关系,常见的古籍图像画幅构成模式包括叶、半叶和双半叶(如表2-4所示),描述古籍的内容信息和版式信息。叶文件使用fileHeader(文件头)、pageText(叶文本)、gaijiList(集外字列表)等标签。仍以图2-22为例,《马嵬志》卷首第五叶的XML描述如例5-3所示。

例5-3:

(二)简单对象

在版式文本数据模型中,简单对象包括文字、符号、图形、图像等,既要描述古籍的内容信息,又要描述版式信息。

1.文字

字符集中的文字可以直接输入,使用singleText(单字)标签描述;集外字用gaiji(外字)、gaijiDescription(外字描述)、gaijiImgLink(外字图像)、gaijiNote(外字说明)等标签描述;文字属性包括字体、字号、位置、颜色、变形、旋转等,使用font(字体)、fontSize(字号)、region(位置)、characterColor(字符颜色)、characterStretching(字符拉伸)、characterTightening(字符紧缩)、characterRotation(字符旋转)等标签描述。仍以图3-7为例,[民国]松阳县志卷六第二十六叶第11行的XML描述如例5-4所示。

例5-4:

2.符号

字符集中的符号可以直接输入,使用singleText(单字)标签描述;字符集中未包含的符号用gaiji(外字)标签描述;符号属性包括大小、颜色、变形、旋转等属性等,使用fontSize(大小)、region(位置)、characterColor(字符颜色)、characterStretching(字符拉伸)、characterTightening(字符紧缩)、characterRotation(字符旋转)等标签描述。仍以图2-14为例,《鹿邑县全图》卷首第一叶第5行的XML描述如例5-5所示。

例5-5:

3.图形

古籍中的常见图形包括线段、圆弧、圆形、矩形、多边形等。线段用straightLine(直线)、startPoint(起点)、endPoint(终点)等标签描述;圆形用circle(圆形)、center(圆心)、radius(半径)等标签描述;圆弧用circularArc(圆弧)、startPoint(起点)、endPoint(终点)、radius(半径)等标签描述;矩形用rectangle(矩形)、pointA(左上顶点)、pointB(右下顶点)等标签描述;多边形用polygon(多边形)、vertexNum(顶点数)、point(顶点)等标签描述。

图形用figure(图形)标签描述,图形属性包括线形、线宽、颜色、填充颜色等,用linetype(线形)、lineWeight(线宽)、lineColor(颜色)、backgroundColor(填充颜色)、layer(图形所在层)等标签描述。以图5-17为例,《[光绪]南阳县志》卷十第六叶第8至10行的XML描述如例5-6所示。

图5-17 古籍样张47[1]

例5-6:

【注释】

[1](清)张嘉谋等.[光绪]南阳县志[M].清光绪三十年刻本

4.图像

图像作为一个整体描述,使用image(图像)、region(位置)、imgLink(图像链接)、layer(图像所在层)等标签描述,如例5-3所示。为了描述复杂版式,引入layer标签,表示图像所在层,“-1”表示底层,“0”表示顶层,“1”、“2”、“3”等正整数表示中间层级,数值越大,表示图像所在层越高。

(三)复杂对象

在版式文本数据模型中,复杂对象包括大小字、墨围、墨盖子、表格、图形组合、特殊图像、版式等,既要描述古籍的内容信息,又要描述版式信息。

1.大小字

大小字用lineText(文本行)、singleText(大字)、mutliText(多行小字)、mutliTextPart(小字)、gaiji(外字)、region(区域)等标签描述,使用mutliText标签的linelevel(小字层级)属性值来描述大小字嵌套。仍以图2-31为例,《[乾隆]西宁府新志》卷十四第九叶第14行的XML描述如例5-7所示。

例5-7:

2.墨围

墨围用figure(图形)、moWei(墨围)等标签描述版式lineText(文本行)、singleText(大字)、mutliText(多行小字)、mutliTextPart(小字)、gaiji(外字)等标签描述内容信息。仍以图2-32为例,《[乾隆]宝山县志》卷一第三十叶第10行的XML描述如例5-8所示。

例5-8:

3.墨盖子

墨盖子用figure(图形)、moGaiZi(墨盖子)等标签描述版式,line Text(文本行)、singleText(大字)、mutli Text(多行小字)、mutli Text Part(小字)、gaiji(外字)等标签描述内容信息。仍以图2-34为例,《[乾隆]凤翔府志》卷五第一叶第11行的XML描述如例5-9所示。

例5-9:

4.表格

表格用figure Combination(图形组合)、table(表格)、cell(单元格)、figure(图形)、rectangle(矩形)、straightLine(线段)等标签描述版式,用lineText(文本行)、singleText(大字)、mutliText(多行小字)、mutliTextPart(小字)、gaiji(外字)等标签描述内容信息。仍以图2-39为例,《[光绪]顺天府志》卷八十九第一叶的XML描述如例5-10所示。

例5-10: