二、现状
目前,谱系文本数据以家谱谱系数据为主,且应用实例并不多,尤其是大规模应用型项目。GEDCOM是家谱数据的国际标准,GEDCOMX是最新的家谱数据开源项目;《中文文献全文版式还原与全文输入XML规范和应用指南》中的“家谱世系数据规范”是国内唯一的家谱谱系数据规范;“浙江图书馆家谱系统”、“中华寻根网”等项目各具特色,“家谱谱系数字化模型研究”是最具代表性的研究项目。
(一)GEDCOM
GEDCOM(Genealogical Data Communication,家谱数据交换格式)是由耶稣基督后期圣徒教会(The Church of Jesus Christ of Latter-day Saints)家庭历史部(以下简称FamilySearch)开发,旨在提供一个灵活、统一的家谱数据交换格式,推动家谱信息共享,促进交互式软件产品开发,服务于谱牒学者、历史学家和其他研究者[2]。
GEDCOM的1.0版本发布于1984年,3.0版本作为标准发布,5.0版本引入了世系连接结构(Lineage-linked structures),5.5版本是目前应用的标准。之后又推出了一系列的草案,从5.6版本(未公开发布草案)开始GEDCOM全面XML化。2011年,FamilySearch开始支持名为“GEDCOMX”的项目,并在Roots Tech2012会议上正式推出该项目。GEDCOM在国外网络家庭树(famil ytree)平台上得到了广泛的应用,如表7-1所示。
表7-1 支持GEDCOM的主要网络家庭树平台表[3]

GEDCOM是一种数据交换格式,要将数据库转化成一个流式文件,即将数据库中的每一条记录转换成一系列带有标签的长度可变的行(line),每一行之间具有一定的层级关系,多条记录再按一定的顺序排列。因此,GEDCOM在数据表示语法中定义了行,每一行通常包括层级号(levelnumber)、标签(tag)和可选值(optionalvalue)。GEDCOM5.5标签详见附录七。
GEDCOM定义了层级关系和互见关系。层级关系通过层级号表示,层级越低的行层级号越大。互见关系是为了表示数据库中记录的相关性,且保证GEDCOM数据中的冗余信息最少。互见关系用互见标识(cross-reference identifier)和互见指针(crossreference pointer)表示,互见指针指向具有互见标识的相关记录,互见标识类似于关系型数据库的主键。如例7-1所示。
例7-1:
为了描述家谱谱系,GEDCOM世系连接语法定义了一系列标签、可选值和指针组合,并在此基础上定义了10个结构(Structures)和17个子结构(Substructures)。子结构由若干行组成,每一行的层级号、互见标识、标签、可选值都有明确的要求,子结构间可以嵌套。结构的组成与子结构类似,子结构可以嵌套在结构中,但结构间不能相互嵌套。如例7-2所示,其中双尖括号表示结构或子结构;尖括号表示标签对应的可选值;大括号表示行的数量限制;中括号([])表示可选项;竖线用于分隔多个并列选项;“n”表示层级号。
例7-2:
一个使用世系连接格式的GEDCOM文件由文件头(HEADER)、提交记录(SUBMISSION_RECORD)、记录(RECORD)和文件尾(TRLR)四部分组成。文件头主要保存GEDCOM文件的传输信息和文件基本信息;提交记录主要保存与GEDCOM文件提交过程相关的信息;记录是GEDCOM文件的内容主体;文件尾是GEDCOM结束的标志,只包含“TRLR”标签。如图7-1所示。
GEDCOM在描述家谱人物关系时,以核心家庭为基本单位,每个家庭只有1个丈夫和1个妻子,可以没有孩子,也可以有1个或多个孩子。当孩子成年后组成新的家庭,可以作为丈夫或妻子。采用了互见指针方式,在家庭记录结构中只描述与家庭关系相关的内容,个人信息直接指向个人记录,这就实现了个人信息与家庭关系的分离。当一个人物属于多个家庭时,人物信息只描述一次。提交者、来源、注释等信息的加入,提高了家庭记录的可信度,多媒体链接的加入丰富了家庭记录的数据类型。
(二)浙江图书馆家谱全文数据库
浙江图书馆家谱全文数据库项目的建设目标是以创新开拓的思路,从保存、利用和应用的角度考虑定位,既要保存资料,注重学术性,为读者查阅和学者研究提供方便,也强调实用性,适合广大普通用户的实际需求,方便用户查询和续修家谱。本系统提供多项检索、阅读手段,力图展现谱籍特点,方便地实现谱籍的在线应用。系统主要功能包括:检索功能,实现人名查询、谱籍书目检索、站内数据全文检索,用户既可在首页通过快捷检索方式,查询关心的内容,也可进入高级检索,精确查询研究内容,提供关联字检索设置,方便海内外人士输入、检索简繁体字信息,同时提高信息的查全率;阅读功能,用户可通过书目检索导航,通过姓氏或地域分类查找书目,书目信息分项显示书目基本信息,谱籍阅读采用图文对照方式,世系图表通过深度编辑还原为完整、直观的谱系结构树,同时提供了一系列辅助阅读工具;家谱制作,本系统提供用户建谱、续谱功能,通过互联网,依托浙图丰富的家谱信息资源,完成您延续血脉亲情的愿望;提供多项用户阅读研究的辅助工具,目前有古今纪年换算、干支纪年查询等功能[5]。
浙江图书馆家谱全文数据,如图7-2所示,左侧为父子、兄弟关系显示、中间为家谱原书图像、右侧为个人信息,包括名、姓、性别、世代、别称、承嗣、名谱、生日、卒日、墓地、支派、迁移、配偶。
(三)中华寻根网
“中华寻根网”(以下简称寻根网)是国家图书馆与澳门基金会合作建设的全球家谱数字化服务、教育和研究项目,以保存人类文明的共同记忆为最终目标。作为一个开放型项目,希望各国各地的图书馆、档案馆、学术机构、宗乡会、家谱编委会等组织和个人加入,使之成为全球华人寻根问祖的家园,团结全球华人的文化平台,宣扬中华民族悠久历史文化的窗口,提供珍贵家谱馆藏的服务通道,专业家谱信息咨询的必备参考,家族文化寻根的规划助手。通过五到十年的努力,最终将寻根网建成一个全球化的华人寻根中心、家谱资料中心、家谱服务中心和家谱研究中心[6]。
寻根网的项目策划始于2008年,经过项目设计、资源规划、软件平台设计、总体设计论证、专家论证等;2009年底完成原型系统设计,通过专家评审后,开始系统内测和大规模数字资源建设;2010年10月,寻根网开始线上测试,并于2011年3月5日正式开通上线,提供服务;目前,寻根网已上线姓氏数据500余条、家谱书目数据33000余条,家谱图像数据2300余种约250余万拍家谱的扫描,同时发布与家谱相关的文献6000余种约300万叶。
寻根网对家谱文献的谱系部分(包括谱系图、谱系表等)采用“谱系树”方式数字化。谱系树是将每个人物作为一个节点,每个节点包含该人物的主要信息和父子、兄弟等亲属关系,同时将像赞、荣恩、家传、艺文等与该人物进行关联,依据每个节点的直系亲属关系可以将各个节点串联起来,形成树状拓扑结构[7]。谱系树中的每一个人物具有唯一的ID号,以结构化数据的方式记录每一个人物的姓、名、字、号等信息和父子、兄弟等关系,如图7-3所示。基于谱系树数据,寻根网系统可以生成比较规整的谱系图,用文字来描述人物的信息,用线段来表示人物之间的关系,如图7-4所示,同时可依据用户的需求,提供多种显示方式。
(四)家谱世系数据规范
国家图书馆在《中文文献全文版式还原与全文输入XML规范》中定义世系XML,第6页有世系XML的总体说明,第8页有世系XML的结构图,第19至20页有世系XML的标签及属性,第30至31页有世系XMLDTD,第70至72页有世系XMLSchema,第70至72页有世系XMLSchema,第78至79页有世系XML标签属性值,第131至138页有世系XML标签应用。
世系XML格式是对家谱文献的一种特定的描述,指出家谱人物之间的父子关系,可构成一棵家谱树[8]。世系XML以世系描述为核心,世系中包含人物,人物包括人物基本信息、子女信息和人物在家谱文献中记载的位置。世系XML的根元素是谱系(lineage),包含人物子元素(person)和1个属性;person元素包含子女子元素(issue)、位置子元素(location)和31个属性;issue元素包含3个属性;location元素包含2个属性。详见附录四。世系XML的元素标签包含的属性、必备性,属性的数据类型、取值范围、默认值,如表7-2所示。
表7-2 世系XML标签属性值表[9]

续表

世系XML Schema结构示意图,如图7-5所示,世系XML Schema详见附录五。
(五)GEDCOMX
GEDCOMX是关于一个开放数据模型和一个序列化数据格式的一系列规范,用于谱系研究过程所必须的数据交换。Family Search的API(Application Programming Inter face,应用程序编程接口)基于这些规范建立。GEDCOMX使用标准协议,追踪在谱系领域的最佳实践。规范详细说明了在离线或在线系统之间交换谱系数据的结构,包括推论(conclusions)、来源元数据(source metadata)、贡献者元数据(contributor metadata)、地点时间格式(place and date formats)等模型。GEDCOMX提供捆绑媒体(bundling media),可以将照片、故事、文档、电影、音频文件等与基于文本的谱系数据捆绑在一起。GEDCOMX也可以处理用于支持谱系推论的来源描述(source descriptions)、来源参考(source references)、引用(citations)、证据参考(evidence references)等[11]。
FamilySearch支持GEDCOMX项目作为对家谱社区的支持,提供托管、工具、论坛和专业开发者,致力于开发相关技术,以支持表示、交换和存储谱系数据。除了FamilySearch的开发者,家谱社区的技术专家始终积极参与了一系列网上公开讨论,处理如何更好地建模谱系数据、处理来源和引用、标准化限制词表、定义地点时间格式、支持包含数字文物、着眼于支持谱系研究过程和“谱系证明标准”要素的交换数据等问题[12]。
GEDCOMX规范集包含9个规范,可分为三类:
(1)概念模型规范,即GEDCOM X概念模型(The GEDCOM X Conceptual Model);
(2)格式实现规范,包括、GEDCOMXXML序列化格式(The GEDCOM X XML Serialization Format)、GEDCOM X JSON序列化格式(The GEDCOM X JSON Serialization Format)、GEDCOM X标准头文件集(The GEDCOM X Standard Header Set)和GEDCOM X文件格式(The GEDCOM X FileFormat);
(3)数据类型定义,包括GEDCOMX事件类型(GEDCOM X Event Types)、GEDCOM X事实类型(GEDCOM X Fact Types)、GEDCOM X姓名部分限定(GEDCOM X Name Part Qualifiers)和GEDCOM X日期格式(The GEDCOM X Date Format)。
GEDCOMX概念模型[13]定义了27个数据类型(DataType),其中顶级数据类型(Top-Level Data Type)7个,组件级数据类型(Component-Level Data Type)20个,每个数据类型都有相应的属性(properties),如表7-3所示。
表7-3 GEDCOM X数据模型表

续表

续表

(六)“家谱谱系数字化模型研究”项目
“家谱谱系数字化模型研究”是国家图书馆科研项目,项目编号NLC-KY-2014-12,该项目基于家谱谱系的内容特性和编撰方式来构建家谱谱系数字化模型;设计家族人物间关系的描述方式,以结构化方式存储家族人物信息,支持数据挖掘与知识发现;处理谱系的缺失、内容编辑错误、信息冗余等问题;与GEDCOM进行比较研究;结合中华寻根网项目,验证家谱谱系数字化模型的有效性和可实现性[14]。
该项目旨在建立一个家谱谱系数字化模型,提供一个结构化(或半结构化)的可控数据描述方式,使家谱谱系摆脱了传统载体和书写形式的限制,依据应用的需求,订制生成一定复杂度的谱系数据,同时兼顾谱系数据的规范性和可复用性;提供一种家谱谱系存储方式,模型的XML实现或数据库实现都可以用于家谱谱系数据的保存,加入必要的元数据和存储机制,也可用于家谱谱系数据的长期保存;描述家谱谱系中的必要信息,通过一定的数据映射机制,可以与基于其他模型的家谱谱系数据实现无损(或低信息损失)数据交换;实现结构化人物描述和显性人物关系描述,其数据实现支持世系检索、查重、连缀、截取、拼接、重构、解构等应用,既可用于单机软件,有可用于网络平台;除了支持一般的应用工具,还要支持专业学术工具,注重信息来源、引用情况、版本比较、文字校雠、专家意见等专业信息的记录和存储,提供必要的研究环境支持;加入数据链接,引入时间、空间、文献等维度,可以实现更大范围的资源整合。
项目研究报告分为5章:第1章为绪论;第2章为谱系电子表格,分析利用电子表格存储家谱谱系的利弊,谱系电子表格是一种用户自定义的谱系数据模型;第3章为家谱树,讨论世系关系的树形结构描述、人物结构化描述和世系XML,世系XML是文献收藏机构使用的谱系数据模型;第4章GEDCOM,研究家庭树模型、GEDCOM文件格式、从GEDCOM到GEDCOMX的发展变化以及GEDCOM如何应用于中国家谱,GEDCOM是家庭史等专门领域使用的谱系数据模型;第5章为世系树,以谱牒学为理论基础,对上述三类谱系数据模型进行比较研究,结合家谱数字化项目中出现的实际问题和应用需求,提出世系树模型,给出世系树文件的XMLSchema描述,探讨世系树模型的扩展与应用。