1
古籍文本数据格式比较研究
1.5.2.1 一、位置文本XML结构
一、位置文本XML结构

位置文本XML由五部分组成,包括文件头、书目元数据、卷目数据、文本数据和集外字数据,如图4-3所示,使用fileHeader(文件头)、bibliographyMetadata(书目元数据)、catalog(卷目数据)、text(文本)、gaijiList(外字列表)等标签。文件头是位置文本XML的整体属性说明和创建、修改、发布等过程描述;书目元数据是位置文本XML的整体内容说明,针对书目信息;卷目数据描述原书的逻辑结构,针对原书图像进行说明;文本数据是位置文本XML的核心部分,包括简单对象、复杂对象和结构对象的XML描述;集外字数据是位置文本XML的补充说明,针对文本数据中的集外字。

(一)文件头

与纯文本XML相同,此处不再赘述。

(二)书目元数据

与纯文本XML相同,此处不再赘述。

(三)卷目数据

卷目数据描述原书的逻辑结构,包含原书的目录结构和与原书图像的对应关系,如图4-4所示,使用catalogRecord(卷目记录)、headingNum(标目序号)、heading(标目)、headingNote(标目注释)、serialNum(层级编号)、startingPage(起始叶)、pageNum(叶数)等标签。

图4-4 卷目数据结构图

(四)文本数据

文本数据是位置文本XML的核心部分,包括简单对象、复杂对象和结构对象的XML描述,包含书、卷、叶或页、栏、篇章、段落、行、行文字、多行小字、墨围、墨盖子、图像、表格等,如图4-5所示,使用book(书)、volume(卷)、page(叶)、region(区域)、character(字符)、image(图像)、table(表格)等标签。

图4-5 文本数据结构图

(五)集外字数据

与纯文本XML相同,此处不再赘述。