1
古籍文本数据格式比较研究
1.7.2.1 一、语义文本XML结构
一、语义文本XML结构

语义文本XML由七部分组成,包括文件头、书目元数据、来源文本属性、卷目数据、标注集合、文本数据和集外字数据,如图6-8所示,使用fileHeader(文件头)、bibliographyMetadata(书目元数据)、sourceText(来源文本)、catalog(卷目数据)、标注集合(tagSet)、text(文本)、gaijiList(外字列表)等标签。文件头是头文件XML的整体属性说明和创建、修改、发布等过程描述;书目元数据是头文件XML的整体内容说明,针对书目信息;来源文本属性描述来源文本的基本情况;卷目数据描述古籍的逻辑结构,针对文本碎片进行说明;标注集合描述标注对象的层次与结构;文本数据是语义文本XML的主体,描述文本碎片的内容与结构;集外字数据是头文件的补充说明,针对头文件XML中的集外字。

图6-8 语义文本XML结构图

(一)文件头

与纯文本XML相同,此处不再赘述。

(二)书目元数据

与纯文本XML相同,此处不再赘述。

(三)来源文本属性

语义文本通常是在已有文本数据的基础上,通过清洗、处理、标注等获得,原有文本特性的数字化特性对语义文本有直接的影响,因此有必要描述来源文本的属性。来源文本属性包括文本类型、语言、字符集、字数、错误率、加工规范、所属项目、文本创建、文本修改、文本发布、版权信息、备注等,如图6-9所示,使用textMode(文本类型)、language(语言)、characterSet(字符集)、characterNum(字数)、errorRate(错误率)、processCriterion(加工规范)、project(所属项目)、textCreate(文本创建)、textModify(文本修改)、textRelease(文本发布)、copyrightInfo(版权信息)、note(备注)等标签描述。

图6-9 来源文本属性结构图

(四)卷目数据

卷目数据描述原书的逻辑结构,包含原书的目录结构和与文本碎片的对应关系,如图6-10所示,使用catalogRecord(卷目记录)、headingNum(标目序号)、heading(标目)、serialNum(层级编号)、block(文本碎片)等标签。

图6-10 卷目数据结构图

(五)标注集合

标注集合描述标注对象的层次与结构,包括文本碎片属性、句型、词性等,使用tagSetRecord(标注记录)、tagNum(标注编号)、tagName(标注名称)、tagLevel(标注层级)、note(备注)等标签描述。如图6-11所示。

图6-11 标注集合结构图

(六)文本数据

文本数据是语义文本XML的主体,描述文本碎片的内容与结构,包括文本碎片、部分、句、词、子文本碎片序列、文字、图像、表格等,如图6-12所示。文本碎片通常有三种构成方式:其一,直接由内容信息构成;其二,直接由若干子文本碎片构成;其三,由部分内容信息和若干子文本碎片构成。文本碎片使用文本碎片(block)、部分(part)、句(sentence)、词(word)、子文本碎片序列(subBlockArray)、文字(textBlock)、图像(image)、表格(table)等标签描述。

图6-12 默认版式结构图

(七)集外字数据

与版式文本XML相同,此处不再赘述。