1
古籍文本数据格式比较研究
1.4.2.1 一、纯文本XML结构
一、纯文本XML结构

纯文本XML由四部分组成,包括文件头、书目元数据、文本数据和集外字数据,如图3-8所示,使用fileHeader(文件头)、bibliographyMetadata(书目元数据)、text(文本)、gaijiList(外字列表)等标签。文件头是纯文本XML的整体属性说明和创建、修改、发布等过程描述;书目元数据是纯文本XML的整体内容说明,针对书目信息;文本数据是纯文本XML的核心部分,包括简单对象、复杂对象和结构对象的XML描述;集外字数据是纯文本XML的补充说明,针对文本数据中的集外字。

图3-8 纯文本XML结构图

(一)文件头

文件头是整体属性说明和创建、修改、发布等过程描述,包含文件名、版本、语言、字符集、文件大小、内容摘要、文件创建信息、文件修改信息、文件发布信息、联系方式、版权信息、备注等,如图3-9所示,使用title(文件名)、version(版本)、language(语言)、characterSet(字符集)、size(文件大小)、abstract(内容摘要)、fileCreate(文件创建)、fileModify(文件修改)、fileRelease(文件发布)、contact(联系方式)、copyrightInfo(版权信息)、fileNote(备注)等标签。

图3-9 头文件结构图

(二)书目元数据

书目元数据是纯文本XML的整体内容说明,针对书目信息,包含题名、责任者、版本、主题、语言、载体形态、藏品信息、描述等,如图3-11所示,使用title(题名)、responsibility(责任者)、edition(版本)、subject(主题)、language(语言)、physicalDescription(载体形态)、collectionInfo(藏品信息)、description(描述)等标签。

书目元数据源自《古籍元数据规范(CDLS-S05-013)》[26],详见附录一,依据文本数据的需求,选取其中的9项合并为8项,主要责任者(creator)和其他责任者(contributor)合并为责任者(responsibility)。

图3-10 书目元数据结构图

(三)文本数据

文本数据是纯文本XML的核心部分,包括简单对象、复杂对象和结构对象的XML描述,包含书、卷、叶或页、栏、篇章、段落、行、行文字、多行小字、墨围、墨盖子、图像、表格等,如图3-11所示,使用book(书)、volume(卷)、page(叶/页)、column(栏)、part(部分)、paragraph(段落)、line(行)、lineText(行文字)、mutliText(多行小字)、moWei(墨围)、moGaiZi(墨盖子)、image(图像)、table(表格)等标签。

图3-11 文本数据结构图

(四)集外字数据

集外字数据是纯文本XML的补充说明,针对文本数据中的集外字,包含集外字列表、集外字、集外字描述、备注等,如图3-12所示,使用gaijiList(外字列表)、gaiji(外字)、gaijiDescription(外字描述)、gaijiNote(备注)等标签。

图3-12 集外字数据结构图