全屏显示专题章节

位置文本数据模型描述对象为古籍原本、古籍影印本等，由文字、符号（非修饰性、非格式控制）和位置信息组成，除文字和符号的排列顺序外，不考虑版式，只描述图形、图像、表格等对象中的文字和符号，而结构对象以描述古籍物理结构为主，按项目需求描述逻辑结构。

（一）结构对象

位置文本数据与古籍图像是一一对应关系，常见的古籍图像画幅构成模式包括叶、半叶和双半叶，如表2-4所示。位置文本数据以画幅为基本单位，若干画幅构成一卷（或册），若干卷（或册）构成书，若干种书构成丛书；一个画幅由若干区域构成，每个区域由若干字位（每个字符所占据的面积）构成。

在位置文本数据模型中，结构对象描述以古籍物理结构为主，使用series（丛书）、book（书）、volume（卷/册）、page（叶/半叶/双半叶）、region（区域）等标签。区域是一个相对概念，既可以指版框、行等，也可以指单个或多个字符。同时，也可以按项目需求描述逻辑结构。仍以图2-22为例，《马嵬志》卷首第五叶右半叶的XML描述如例4-1所示。

若结构对象需要描述逻辑结构，使用catalog（目录）、series（丛书）、book（书）、heading Num（标目编号）、heading（标目）、heading Note（标目注释）、serial Num（层级编号）、starting Page（起始叶）、pageNum（叶数）等标签。仍以《[光绪]顺天府志》为例，如例4-2所示。

（二）简单对象

在位置文本数据模型的简单对象中，文字和符号是描述的重点，同时要描述文字和符号的位置属性。而图形和图像仅描述其中的文字。

字符集中的文字可以直接输入，使用character（字符）标签描述；集外字用gaiji（外字）标签描述；文字的位置属性用region（区域）、positionA（顶点A）和positionB（顶点B）标签描述。其中region标签表示文字所在的区域，positionA表示区域的左上顶点，positionB表示区域的右下顶点，通过positionA和positionB可以唯一确定区域。仍以图3-7为例，[民国]松阳县志卷六第二十六叶第11行，XML描述如例4-3所示。

[1]刘英.OCR技术在简牍图像数字化中的应用[D].成都理工大学，2007：4—5

[2]章杰鑫，潘悟云.古籍数字化技术的新思路[J].语言研究，2014（1）：124—126.

[3]古籍数字对象制作规范[OL].[2016-6-29].http://www.cadal.cn/softdown/bs_bz04.pdf

字符集中的标点符号和专类符号可以直接输入，字符集中未包含的标点符号和专类符号替换为“●”（U＋25CF），校对符号和版式符号可直接忽略。位置属性的描述方式与文字相同，此处不再赘述。

图像只描述其中的文字，使用image（图像）、region（区域）、character（字符）等标签。仍以图2-23为例，《[嘉靖]隆庆志》之《州境之图》的XML描述如例4-4所示。

描述方式与图像相同，此处不再赘述。

（三）复杂对象

在位置文本数据模型的复杂对象中，版式可直接忽略，大小字、墨围和墨盖子只描述文字和位置属性，而表格、图形组合和特殊图像仅描述其中的文字。

大小字用region（区域）、character（字符）等标签描述，使用region标签的level（级别）属性值来区分大小字，若每个文本行的level属性值为“1”，每行大字的level属性值为“2”，每个大字的level属性值为“3”，每行小字的level属性值为“2”，每个小字的level属性值为“3”。仍以图2-31为例，《[乾隆]西宁府新志》卷十四第九叶第14行的XML描述如例4-5所示。

墨围用region（区域）、character（字符）等标签描述，使用region标签的level（级别）属性值来区分墨围和墨围中的文字，若墨围的level属性值为“2，墨围中每个字的level属性值为“3”。仍以图2-32为例，《[乾隆]宝山县志》卷一第三十叶第10行的XML描述如例4-6所示。

描述方式与墨围相同，此处不再赘述。

表格用table（表格）标签描述，其中的文字用region（区域）、character（字符）等标签描述。仍以图2-39为例，《[光绪]顺天府志》卷八十九第一叶如例4-7所示。