1
古籍文本数据格式比较研究
1.8.1.3 三、数据模型
三、数据模型

谱系文本数据模型描述对象为古籍中的谱系部分,由实体和实体间关系组成。实体是谱系的基础,是实体间关系的承担者;实体间关系是实体之间的各种关系,与实体共同构成谱系系统。理想的谱系文本数据模型实体和实体间关系应分开描述;实体定义明确,为结构化或半结构化描述;实体间关系描述完整且简单易用。

(一)实体

实体是谱系的基础,是实体间关系的承担者,以家谱谱系为例,实体为人物。通常在家谱中,人物描述为非结构化文本,如例7-3所示。人物的最简描述为谱名(在家谱中使用的名字),如图7-6所示。

图7-6 古籍样张48[15]

例7-3:

用卿,字鳴治,號雲岡,源長子,母林氏,明宏治十四年辛酉五月二十四日生,由福州府懷安縣廪生,以《禮記》中嘉靖壬午科五名舉人,丙戌科進士一甲一名及第,授翰林院修撰,充朝鮮詔諭使,赐一品服,擢左春坊左諭德兼翰林院侍讀,充經筵日講官,再擢南京國子监祭酒,誥授朝列大夫予告,著有《雲岡集》行世,卒於嘉靖四十三年甲子六月十七日,壽六十有四。配林恭人,繼室林恭人,葬南門外吉祥洋犢山,坐卯向酉,側室郭孺人,葬東門外登雲路,坐庚向甲。子一:爟,郭孺人生。

实体通常采用结构化或半结构化描述方式:结构化描述方式是将家谱文本分解为多个字段,每个字段有相应的内容和格式要求,数据结构性好,方便后续应用,但是加工难度较高;半结构化描述方式是将家谱文本部分分解,用字段形式描述,可以保留原书的文本特征,数据结构性较差,但是便于数据加工。

为了兼容实体的结构化和半结构化描述方式,实体数据模型定义为基本集、核心扩展集和扩展集。基本集只包含最少的元素,满足实体描述的最低要求,如例7-4所示;核心扩展集加入实体间关系描述所需的关键元素,满足实体间关系描述的最低要求,如例7-5所示;扩展集包含实体和实体间关系描述所需的元素,体现信息的丰富性,如例7-6所示。

例7-4:

(二)实体间关系

实体间关系是实体之间的各种关系,与实体共同构成谱系系统。谱系系统内任何两个实体间都有关系,但是从描述的角度出发,要求实体间关系描述完整且数据量最小,通常实体间关系描述为属性、规则和相邻实体间的关系,任意实体间的关系可依据规则、通过属性和相邻实体间的关系推导获得。以家谱谱系为例,描述父子关系、兄弟排行、婚姻关系、承嗣关系等。

描述方式可大致分为两类:宗族式,以同姓的男性家族成员为主体,重点描述血缘关系,如例7-7所示;家庭式,以家庭为基本单位,家庭内部描述父母、子女之间的关系,家庭之间的关系通过同一个人物在不同家庭中的不同角色建立,如例7-8所示。

例7-7:

例7-8: