1
古籍文本数据格式比较研究
1.1 出版说明
出版说明

国有史,地有志,家有谱,家谱、方志、正史从不同层面构成中华民族历史的记忆。

中国自古就有修志的传统。《周礼·春官》载:“外史掌四方之志。”东汉郑玄注:“方志,四方所识久远之事。”中国地方志作为珍贵的文献资源,其内容不仅包括各地区的疆域、气候、山川、物产等地理资料,也涵盖户口、人物、赋税、艺文等人文历史各方面的记载,是地方的百科全书,一地之全史。地方志所详细记载本地区的政治、经济、社会等发展状况,形成了独特的区域文化,具有鲜明的地方特征;地方志以记述某一段时间当地的情况为主,是一个特定时期文化积淀和历史的产物,反映出了特定时代的经济、政治、文化等方面的烙印;地方志内容广泛,系统性强,从天文地理、名胜古迹、物产资源、民族宗教、方言俗语、金石碑刻到政治经济、科学文化、典章制度、著名人物、重大事件等,分门别类按照内容的要求选择合理的记录方式;资料性是地方志所有特征中最基础的一个特征,是方志生命力之所在。

据不完全统计,汉文古籍超过20万种,地方志约占5%,地方志同时具备的地域性、时代性、系统性、资料性和科学性,既包含丰富的内容信息,又适合与现代技术相结合,建立资源库、知识库和GIS系统,进而构建中国传统文化基础平台。以地方志为核心的中国传统文化基础平台将地方志目录、图像、文本、关联数据等不同粒度的数据与地理信息数据相结合,实现时间、空间、文献三个维度的智能检索、数据分析和图形化显示。同时,平台具有高度的容纳性与扩展性,可将各种类型的文献资源、各种格式的数字资源和各种功能的知识工具有机地整合在一起。中国国家图书馆古籍馆陈红彦馆长和肖禹等专家在地方志数字化工作实践中不断积累,研究古籍数字化中遇到的技术问题,进行理性总结。科技部科技支撑计划“中国地方志数字化关键技术研究与演示平台设计”正是基于地方志这样的特征,希望通过地方志数字化技术、数据抽取技术、可视化技术的统合应用,为古籍数字资源建设利用做出有益的尝试。

实现现代技术与传统文献的紧密结合,打造基础平台,支持数据分析与智能检索,必须以统一的标准规范为先导,因此项目中设计了实现平台相关功能必需的理论研究、加工规范制定等内容,最终以《古籍文本数据格式比较研究》《IDS与集外字处理方法研究》《国家图书馆藏清康熙时期纂修方志书录》《方志文献特性与数据抽取研究》《地方志数字化加工规范汇编》《地方志数字化加工规范应用指南》六部书的形式呈现。

上海远东出版社

2017年2月