1
古籍文本数据格式比较研究
1.9.2.2 二、复合文本示例
二、复合文本示例

以版式文本为基础,加入部分语义文本的特性,形成复合文本。需要加入的特性包括:文本碎片结束符、卷目数据属性、题名属性、图表属性、表格行列属性等。

文本碎片结束符是文本碎片结束的标记。版式文本以文本行为描述单位,同一叶内或前后两叶相邻的文本行、同一个文本行内的文字是否属于同一个文本碎片无法直接判断,通过软件或人工加入文本碎片结束标记可以明确文本碎片范围,粗略描述文字的连续性。

卷目数据用于描述古籍的结构信息,通过加入类型属性标记,可以明确各级卷目的类型,提高卷目数据的描述能力,也可以作为文本碎片组合的描述,或作为文本碎片的结构属性使用。

各级文本碎片中都可能出现题名,通过题名可以大致了解文本碎片的内容,是文本碎片的重要属性之一。而版式文本中的文字没有内容属性描述,因此,需要添加题名属性。

版式文本中的图像和表格作为对象处理,没有内容属性描述,虽然加入题名属性有助于反映对象的整体内容,仍需要内容属性描述。

版式文本中的表格对象按照图形和文字分开描述,每个单元格内的文字按照文本行进行描述,未能体现单元格的二维属性,即行属性和列属性。通过引入表格行列属性,可以简单有效地描述每个单元格的二维属性。

(一)XML Schema

1.头文件

2.叶文件

(二)XML

1.示例1

仍以图3-13为例:

(1)头文件

(2)叶文件

2.示例2

仍以图3-14为例:

(1)头文件

(2)叶文件

【注释】

[1]王冠中.中文古籍数字化成果与展望[D].东北师范大学,2005:11—12.

[2]毛建军.中文古籍全文数据库的类型与规范[J].中国索引,2008(2):14-16