1
古籍文本数据格式比较研究
1.6.2.2 二、叶文件XML结构
二、叶文件XML结构

叶文件XML由三部分组成,包括文件头、叶文本数据和集外字数据,如图5-21所示,使用fileHeader(文件头)、pageText(叶文本)、gaijiList(外字列表)等标签描述。文件头是位置文本XML的整体属性说明和创建、修改、发布等过程描述;叶文本数据是版式文本XML的核心部分,以叶为单位,包含简单对象和复杂对象的XML描述;集外字数据是版式文本XML的补充说明,针对文本数据中的集外字。

图5-21 位置文本XML结构图

(一)文件头

与纯文本XML大部分相同,只是添加了默认版式描述。由于叶文件以叶为单位,每个叶文件XML对应一幅古籍图像,而同一部书的版式大致相同,相同部分已在头文件中进行描述,叶文件只需在文件头中说明使用了哪些默认版式,这种方式大大降低了版式XML的复杂度和数据冗余度。默认版式描述包括版框、版心、界栏、图形设置、字符设置、墨围设置、墨盖子设置等,如图5-22所示,使用defaultFrameOfPage(默认版框)、defaultMiddleOfPage(默认版心)、defaultColumnOfPage(默认界栏)、defaultFigure(默认图形设置)、defaultCharacter(默认字符设置)、defaultMoWei(默认墨围设置)、defaultMoGaiZi(默认墨盖子设置)等标签描述。

图5-22 叶文件文件头结构图

(二)叶文本

叶文本数据是版式文本XML的核心部分,以叶为单位,将每一叶分为版心区、叶核心区(版框内除去版心的部分)和其他区三部分,包含古籍每一叶的内容信息和版式信息,如图5-23所示,使用middleOfPageArea(版心区)、pageCoreArea(叶核心区)、otherArea(其他区)、region(区域)、lineText(文本行)、table(表格)、image(图像)、figure(图形)、figureCombination(图形组合)等标签描述。

图5-23 叶文件叶文本结构图

(三)集外字数据

与头文件XML相同,此处不再赘述。