1
古籍文本数据格式比较研究
1.11.2 二、中文文献全文版式还原规范<sup></sup>
二、中文文献全文版式还原规范[2]

(一)结构说明

1.总体结构

一种文献版式还原(layout match)XML文件包括头文件XML和叶文件XML。总体结构图如图附2-1所示。

版式(layout)指版面上视觉元素的排列组合,它是一种具有风格和特色的视觉传送方式。本规范中版式还原指用计算机语言和数字的方式记录中文文献版面视觉元素的排列组合,能够完全再现原版式的风格和特色。头文件(head_ file)是本规范定义的对一种文献整体描述的XML文件。叶文件(page_file),一种文献有多页,本规范对每一页用一个XML文件对其描述,称之为叶文件。

图附2-1 总体结构图

2.头文件

头文件是本规范定义的对一种文献整体描述的XML文件。头文件中包括:对一种文献中所用到的字(体)加以定义;对一种文献中所用到的词装饰加以定义;对一种文献中所用到的不占字符位的符号加以定义;对书的目录加以定义;对不同页中相同的操作加以定义等。头文件结构图如图附2-2所示。

词装饰指对词外带框、词边带线等修饰。文本行(oneline_text)是一页中的一行文字。

图附2-2 头文件结构图

3.叶文件

一种文献有多页,本规范对每一页用一个XML文件对其描述,称之为叶文件。叶文件结构图如图附2-3所示。每一页有多行,本规范是通过对单行的逐个描述完成对整页的描述。行与行之间的文本只存在一种关系:本行的最后一个字与下一行的第一个字在语法上是否是连续的。页与页之间的文本只存在一种关系:本页最后一行的最后一个字与下页第一行的第一个字在语法上是否是连续的。

图附2-3 叶文件结构图

页坐标定义:页的左上角坐标为(0,0),页的右下角坐标为(w-1,h-1),其中w为页的宽度,h为页的高度。

4.表格

叶文件结构图如图附2-4所示。

图附2-4 表格结构图

5.文本行

文本行是一页中的一行文字。一页中,最右(或最上)边的一行被称为第1行,由右(或上)至左(或下)顺序称为第2行,第3行,…。文本行结构图如图附2-5所示。

集外字(Gaijioutsidethefontset)指特定的字符集以外的汉字。本规范的集外字指超出GB18030-2005字符集的汉字。

图附2-5 文本行结构图

(二)标签及属性说明

1.XML类型声明

XML第一行为文档的类型声明,如。标签及属性说明如表附2-1所示。

表附2-1 XML类型声明标签及属性说明表

2.字

字标签及属性说明如表附2-2所示。