1
古籍文本数据格式比较研究
1.9.1.1 一、全文文本
一、全文文本

依据文本数据加工的流程特点,可将全文文本数据分为两类:一次加工数据,通过一次文本化流程获得的数据,如纯文本数据、位置文本数据、版式文本数据等;二次加工数据,以某种类型的文本数据为基础,经过二次加工获得的数据,如语义文本数据等。一次加工数据保存古籍原有信息,而二次加工数据在保存古籍原有信息的基础上加入新的信息。

(一)格式比较

纯文本、位置文本和版式文本都基于古籍文本模型,但描述方式各不相同。纯文本是只包含文字和非修饰性、非格式控制(回车符和换行符除外)符号的文本,位置文本是只包含文字和非修饰性、非格式控制(回车符和换行符除外)符号和位置信息的文本,版式文本是具有版式结构化描述的文本,三者的区别如表8-1所示。

表8-1 文本格式对照表

续表

(二)格式简化

文本格式指基于数据模型的文本描述方式或规范,应同时具备通用性、全面性、可操作性、可扩展性等。而古籍文本化项目是工程项目,受时间、空间、资金、设备、软件、人员、文献等诸多方面的制约,必须依据项目目标选定古籍文本格式后,通常会进行必要的格式简化,以降低项目的复杂度。格式简化可大致分为两类:数据模型简化和数据描述简化。

1.数据模型简化

数据模型简化是通过修改文本格式所依据的数据模型来简化文本格式。以版式文本格式为例,该格式基于古籍文本模型,包括简单对象(文字、符号、图形、图像)、复杂对象(大小字、墨围、墨盖子、表格、图形组合、特殊图像、版式)和结构对象,若去掉复杂对象中的图形组合和特殊图像,用简单对象中的图像代替,仍以图2-18为例,XML描述如例8-1所示。

例8-1:

2.数据描述简化

数据描述简化是保持文本格式所依据的数据模型不变,通过修改数据描述方式来简化文本格式。以位置文本格式为例,若位置信息只描述文本行所在的区域,而不描述每个字所在的区域,仍以图3-13为例,XML描述如例8-2所示。

例8-2:

以版式文本格式为例,在描述版式信息时采用“有限版式还原”策略,即只描述对检索、显示等应用有重要影响的版式信息,规范或直接忽略其他版式信息,详见第五章第一节中的“数字方志”部分。

(三)格式转换

纯文本、位置文本和版式文本都基于古籍文本模型,但描述方式各不相同,详见表8-1,这三类文本格式在一定条件下可以相互转换。由于位置文本格式应用很少,本书中只讨论纯文本和版式文本间的格式转换。

1.版式文本转换为纯文本

版式文本转换为纯文本是一个信息舍弃与重组的过程,不仅要舍弃版式信息,还要舍弃图像、图形、表格等数据对象。同时,由于纯文本的逻辑结构灵活,既能以文本行为基础组织数据,又能以篇(章)、栏、叶(页)、卷(册)、书(丛书子目)等为基础组织数据。以第五章第三节示例1为例,若转换为以文本行为基础的纯文本数据,如第三章第三节示例1所示;若转换为以篇为基础的纯文本数据,如例8-3所示。

例8-3:

版式文本以文本行为单位,每叶由若干个文本行组成,再通过卷目数据描述叶与卷的关系,在大多数情况下,若两个文本行的字数与行款相同,前后两个文本行之间内容是连续的;若两个文本行的字数都少于行款,前后两个文本行之间内容是不连续的;若前一个文本行的字数少于行款,后一个文本行出现“提格”,两个文本行之间内容的连续性无法判断;……除了上述情况外,跨叶、模糊、漫漶、叶码混乱等情况都会影响文本行间内容连续性的判断。因此,版式文本转换为以篇(章)、栏、叶(页)、卷(册)、书(丛书子目)等为基础的纯文本数据,若使用简单规则判定文本行间是否连续,可能发生错误。

2.纯文本转换为版式文本

纯文本转换为版式文本是一个信息添加与重组的过程,不仅要添加版式信息,还要添加图像、图形、表格等数据对象。同时,由于纯文本的逻辑结构灵活,若以文本行为基础组织数据,如第三章第三节示例1所示,加入版框、界栏、行款等版式信息,即可将纯文本转换为版式文本,版式还原效果如图8-2所示;若在纯文本中用空格描述缩进或提格,转换为版式文本后,版式还原效果更好,如图8-3所示。

图8-2 版式还原效果图

图8-3 版式还原效果图2

若纯文本以篇(章)、栏、叶(页)、卷(册)、书(丛书子目)等为基础组织数据,只添加版框、界栏、行款等版式信息,不能用简单规则分断每个文本行。因此,在古籍文本化项目中,通常不将纯文本按原版式转换为版式文本,而是将纯文本按需求进行重新排版。以中国基本古籍库为例,纯文本数据如图8-4所示,按每行23字小字单行做版式重排,排版效果如图8-5所示。

图8-4 中国基本古籍库截图

图8-5 中国基本古籍库截图2

(四)语义文本

语义文本是具有语义结构化描述的文本,在其他类型文本数据的基础上添加标注,使隐性信息显性化,或加入新的信息。语义文本数据模型描述古籍的内容信息、标注信息、结构信息等,内容信息来自其他类型文本,保留部分与内容密切相关的版式信息;标注信息包括原书隐含语义信息描述和附加语义信息描述;结构信息表示文本碎片之间的结构关系和属性继承关系。

纯文本数据、位置文本数据和版式文本数据都只是描述或部分描述古籍文献所蕴含的信息,如内容信息、版式信息、结构信息等,提供书(丛书子目)、卷(册)、叶(页)、文本行、单个文字等粒度。书(丛书子目)、卷(册)、叶(页)等粒度较粗,通过卷目元数据描述,无内容属性描述;文本行、单个文字等粒度较细,通常不能表达完整语义。而语义文本提供了词(字组)、句、文本碎片等粒度,可描述原书隐含语义信息或附加语义信息。

语义文本是在其他类型文本数据的基础上,经过二次加工获得,通常以纯文本或版式文本作为数据基础。纯文本结构简单,便于二次加工,但是缺少图像、图形、表格等数据对象,内容不完整;版式文本内容丰富,包含内容、版式、结构等信息,但是数据格式复杂,必须先进行预处理,先将头文件中的信息进行重构,再将叶文本转化为一系列文本碎片,将部分版式信息直接转化为语义标签,同时舍弃部分无效版式信息。