1
古籍文本数据格式比较研究
1.8.1.1 一、源起
一、源起

谱系,在《现代汉语词典》上有两个定义:(1)家谱上的系统;(2)泛指事物发展变化的系统[1]。第一个定义可以理解为狭义的谱系,家谱中的人物与人物关系所构成的系统,即家谱谱系或世系;第二个定义可以理解为广义的谱系,泛指事物发展变化的系统,除了家谱谱系以外,还可以是植物谱系、动物谱系、器物谱系、神仙谱系、学术谱系等。

通过谱系的定义不难看出,谱系可以划分成实体和实体间关系两部分:实体,即人物、植物、动物、器物等,通常用文字或图像描述;实体间关系,即实体之间的相互关系,通常用文字、图形、表格等方式描述;实体和实体间关系共同构成系统,即谱系,在古籍中,谱系的描述形式多样,通常是实体和实体间关系混杂在一起。以家谱为例,如图2-16所示,谱名为大字,人物基本信息为双行小字;版框内自上而下分为5个区域,表示第一世至第五世父子关系用垂直线段表示,兄弟关系用水平线段表示。若描述为版式文本,实体信息分散在各个区域,世代关系无法表示,父子关系只能表示为图形;若描述为语义文本,实体信息可完整描述,世代关系和父子关系只能转换为实体的属性,描述方式复杂且描述不完整。

理想的谱系文本实体和实体间关系应分开描述,即每个实体有唯一的名称或编号,实体的全部内容都隶属于上述名称或编号,实体间关系描述只使用上述名称或编号;实体的内容描述相对集中,且不包含实体间关系描述;实体间关系单独描述,实体内容信息的增减不影响实体间关系描述;实体间关系描述完整且数据量最小,通常实体间关系描述为属性、规则和相邻实体间的关系,任意实体间的关系可依据规则、通过属性和相邻实体间的关系推导获得。