1
古籍文本数据格式比较研究
1.2.1.1 (一)古籍数字化
(一)古籍数字化

葛怀东等在《国内古籍数字化研究文献计量分析》中以CNKI为数据源,通过人工筛选去除一稿多发、简讯、报纸、评论、通知以及与古籍数字化研究相关性不大的文章,得到1985年至2012年之间的古籍数字化研究论文797篇;通过计量分析可以发现国内对古籍数字化领域的研究取得了长足的进步,已经开始进入高速发展的阶段,新兴信息技术的发展以及古籍数字化领域重要事件的推动这两大因素,对该领域的发展有着非常重要的意义,该领域的文献开始呈现接近指数增长,核心期刊群、核心研究机构和核心作者正在慢慢形成中[6]

王荟等在《汉语文古籍全文文本化研究》[7]中以CNKI为数据源,分析1985年至2010年之间古籍数字化论文的研究内容,其中有近27%的内容是对古籍数字化的思考,探讨古籍数字化的理论问题和数字化实践中的共性问题,如李国新的《中国古籍资源数字化的进展与任务》[8]、陈力的《中文古籍数字化方法之检讨》[9]、毛建军的《古籍数字化的概念与内涵》[10]等;有近9%的内容是介绍现有的古籍资源和数字化项目,如李明杰的《古籍网络资源述略》[11]、许红健的《台湾中文古籍数字化成果特色谈》[12]、毛建军的《欧美地区中文古籍数字化概述》[13]等;有近8%的内容是讨论古籍数字化的现状与对策,从地区、图书馆、档案馆的古籍数字化实践出发,分析当前存在的问题,提出解决问题的思路,如厉莉的《古籍数字化的现状及对策》[14]、王立清的《港台地区古籍数字化现状分析及启示》[15]、刘春金等的《中文古籍数字化现状分析》[16]等;有近18%的内容是研究古籍数字化的技术与方法,如王燕的《浅谈数字图书馆中的图形化查询技术——GIS在北京大学古文献资源库中的应用》[17]、林颖等的《一种灵活可扩展的古籍数字对象的设计与实现》[18]、赵云的《图书馆古籍数字化前处理工作研究》[19]等;此外,还有一些论文探讨了古籍数字化与学术研究、古籍书目数据库、中医古籍数字化、少数民族古籍数字化、农业古籍数字化等问题。如表1-1所示:

表1-1 古籍数字化期刊论文研究内容统计表

常继红等在《国内古籍数字化研究进展与启示》中使用CNKI全文期刊数据库2001年至2013年的数据,通过关键词词频统计与相关论文主题分析发现:近年来国内古籍数字化领域基础理论与技术及其应用研究不断深入,相关研究领域不断拓展,但是理论研究的深广度、前沿性与多元化倾向略显不足,相关技术研究缺乏广泛领域的应用与实证,古籍数据库或系统平台的深度开发与评价研究明显不足;古籍数字化领域人才培养、学科建设、专业教育、科学管理、信息服务等主题研究相对匮乏;专题性古籍数字化主要涉及民族、中医药、农业等类别,而其他如方志、家谱、图牒、档案、金石、简帛等特殊类型古籍数字化研究尚不充分与深入[20]

1.概念

在20世纪80年代前后,我国台湾地区以及大陆地区陆续开始了将古籍整理与计算机相结合的实践活动[21]。1990年,台湾地区《国文天地》第九期首次使用了“古籍电脑化”,但是并未对这一术语进行定义。随后出现了“史籍自动化”、“古籍自动化”、“古籍文献资讯化”、“珍藏文献数位化”、“古籍电子化”、“古籍网络化”、“古籍文献数据化”等一系列术语,目前学界和业界普遍使用的术语为“古籍数字化”(台湾地区称为“古籍数位化”),这一术语是1997年刘炜在《上海图书馆古籍数字化的初步尝试》[22]中首次提出的,但文中并未对这一术语进行定义。

“古籍数字化”的概念在不断明确、发展与深化,以下列出部分有代表性的说法:

陈洪澜在《中国古籍电子化发展趋势及其问题》中提出,古籍电子化是利用现代科技手段研究古代社会文明的基础,代表着中国古籍整理与研究的发展趋势[23]

李运富在《谈古籍电子版的保真原则和整理原则》中提出,古籍电子化是指利用现代信息技术,将历来以抄写本、刻铸本、雕版、活字版、套版及铅字印刷等方式所呈现的古代文献,转化为电子媒体的形式[24]

彭江岸在《论古籍的数字化》中提出,古籍数字化就是利用数字技术将古籍的有关信息转换成数字信息,存贮在计算机上,从而达到使用和保护古籍的目的[25]

王桂平在《我国古籍数字化现状及展望》中提出,古籍数字化就是采用计算机技术,对古籍文献进行加工、处理,制成古籍文献书目数据库和古籍全文数据库,用以揭示古籍文献中所蕴涵的极其丰富的信息资源,为古籍的深度开发打下良好的基础[26]

乔红霞在《关于古籍全文数据库建设工作的思考》中提出,古籍数字化是利用多媒体技术、数据库技术、数据压缩技术、光盘存储技术、网络传输技术等手段把馆藏印刷型文献、缩微型文献、音像型文献等传统介质文献转化为数字化、电子化的光盘或网络信息的工作[27]

厉莉在《古籍数字化的现状及对策》中提出,古籍数字化就是利用数字技术将古籍的有关信息转换成数字信息存储在计算机上,从而达到使用和保护古籍的目的[28]

刘琳等在《古籍整理学》中提出,古籍数字化就是将古代典籍中以文字符号记录的信息输入计算机,从而实现了整理、存储、传输、检索等手段的计算机化[29]

陈阳在《中文古籍数字化的成果与存在问题》中提出,古籍数字化是利用现代信息技术将古代文献转化为电子媒体的形式,通过光盘、网络等介质保存和传播[30]

段泽勇等在《古籍数字化的回顾与展望》中提出,古籍数字化就是把人们几千年来常用的文字符号转化成能为计算机识别的数字符号的一种过程[31]

李明杰在《中文古籍数字化基本理论问题刍议》中提出,古籍数字化是以保存和普及传统文化为基本目的,以知识发现的功能服务学术研究为最高目标,在对传统纸质古籍进行校勘整理的基础上,利用计算机技术将其转换成可读、可检索及实现了语义关联和知识重组的数字化信息的过程[32]

陈力在《中文古籍数字化的再思考》中提出,古籍数字化是数字时代利用数字技术和现代信息技术对古籍进行整理的工作[33]

毛建军在《古籍数字化的概念与内涵》中提出,古籍数字化就是从利用和保护古籍的目的出发,采用计算机技术,将常见的语言文字或图形符号转化为能被计算机识别的数字符号,从而制成古籍文献书目数据库和古籍全文数据库,用以揭示古籍文献信息资源的一项系统工作[34]

张轴材在《典籍数字化与搜索:源与流,深与浅》中提出,狭义的典籍数字化把整理后的古籍文献内容,从纸面转换为数字,与相关的数字化工具结合在一起,达到字字可查、句句可检的水准;广义的数字化包括标引、校勘、版本对比、注释、同义词语、韵律、批评等[35]

秦长江在《中国古籍数字化建设若干问题的思考》中提出,古籍数字化是利用现代信息技术将古籍转化为电子数据的形式,通过光盘、网络等介质予以保存和传播[36]

童顺荣在《古籍数字化相关问题的开放思考》中提出,古籍数字化是利用现代信息技术将古籍转化为数字化形式进行存储和利用[37]

李筑宁在《关于古籍资源数字化建设中几个问题的探讨》中提出,古籍资源数字化建设应包含两方面含义:一是对原有传统古籍资源进行数字化加工转化,即把传统的以纸张为载体的印刷版文献信息利用键盘输入或光学字符识别转化为用计算机存储设备存储的电子版信息,并实现形式转换后的计算机管理、网络传输和数字化存取;二是对网络信息资源进行采集和加工,开发建设新的数字化文献资源,并对两者进行科学地整合、组织、分类,形成新的数字化资源体系,通过网络供远程用户检索、查询和利用[38]

王立清在《中文古籍数字化研究》中提出,古籍数字化就是指利用现代信息技术将传统古籍整理后转化为数字媒体形式的书目数据库和全文数据库,通过光盘、网络等介质保存和传播,以达到保存普及传统文化和服务学术研究之目的[39]

王延开在《古籍使用方案解析与古籍数字化发展方向的再思考》中提出,古籍数字化就是利用现代信息技术将古代文献转化为数字的形式,通过光盘、网络等一切虚拟介质保存和传播,其实质就是把古籍做成数字化复本[40]

徐金铸在《中文古籍数字化建设理论问题浅论》中提出,古籍数字化是为了保护和利用古籍,运用现代数字信息技术,对古籍进行加工、整理,建设成文献数据库,实现数字资源共享的过程[41]

葛怀东在《“古籍数字化”课程的建设与实践》中提出,古籍数字化是对古籍或古籍内容的加工与再现,是古籍整理工作在新时期的延伸[42]

高娟等在《中国大陆地区古籍数字化问题及对策》中提出,古籍数字化首先是为了保护典籍,然后才是拓展数字典籍的利用途径,使数字典藏在与文化产业和市场的结合中达到文化的传承与可持续发展[43]

牛红广在《关于古籍数字化性质及开发的思考》中提出,古籍数字化在本质上是古籍整理传统方法的延续与创新,其性质可以说是古籍整理数字化或自动化[44]

上述定义基本都是从古籍的角度来定义古籍数字化,即古籍数字化是古籍的介质转换、古籍的资源开发、古籍整理的延伸等。若以数字化为基础来定义古籍数字化,首先应明确数字化的概念。数字化是把声音、图像、文字、图形等信息全部变为计算机能够识别的二进制数字序列[45]。数字化是指在各方面都采用数字信息处理技术[46]。数字化是指各种信息的数字统一处理[47]

古籍数字化可以认为是对象为古籍的数字化。狭义的古籍数字化是古籍资源转换为计算机可读数据的过程。而广义的古籍数字化是古籍数字资源生产、组织、管理、整合、存储、使用、处置等全过程。

2.层级

徐清等在《古籍数字化资源的深度开发》中认为古籍数字化的深度开发至少包含三个方面内容:提供基于超文本的立体阅读环境;建立强大的智能化检索系统;提供科学、准确的统计数据和信息分析[48]。王立清在《中文古籍数字化研究》中将古籍数字化分为四个层次:古籍书目的数字化;古籍载体的数字化;古籍图文的数字化;古籍知识及关联的数字化[49]。王向前在《高校图书馆古籍数字化建设层次、问题及应对策略》中将古籍数字化分为四个层次:古籍数字化建库,即古籍扫描录入、裁剪、编辑、生成一定格式的文档,最后建成基础古籍数据库;索引目录库建设,古籍数字化主要以文本扫描、文档编辑进行建库,索引目录库一般为书名目录索引库;古籍数据的网络发布,建立索引库与古籍基础数据库之间的链接,通过网络平台软件在互联网上发布古籍数据供读者网上阅读、下载使用;古籍数据库的深层次加工,如:古籍内容的标注、古籍本体构建及数据库的智能检索等[50]。马创新等在《中文古籍数字化的开发层次和发展趋势》中将古籍数字化分为四个层次:表层第一层,古籍善本的扫描录入、OCR识别、书目及内容的电子索引、大字符集的研制、字符集之外文字的录入方法,解决古籍录入和数字化存储问题;表层第二层,古籍全文的互联网发布、基于网络的全文检索,解决古籍网络传播和信息检索问题;深层第一层,古籍著录和描述的元数据标准、文献内容的标注和系联、超文本的立体阅读环境,解决基本信息标注、古籍内容浅层标注与系联问题;深层第二层,古籍领域本体的构建、知识网络建设、智能的知识检索,解决古籍内容深层语义标注和知识检索问题[51]。毛建军在《古籍数字化与理论实践》中认为古籍数字化分为五个层次:编制古籍电子索引;建立古籍书目数据库;古籍原文图像复制;汇编古籍电子丛书;古籍标点今译与普及等[52]

基于狭义古籍数字化概念,古籍数字化可分为数据和加工流程两个层面。数据可以再分为三个层次:元数据,如书目数据、索引数据等;对象数据,如图像数据、文本数据、音频数据、视频数据等;知识数据,如分类法、主题词表(关键词表)、领域本体、规范数据、专题数据等。加工流程可以划分为元数据加工、对象数据加工和知识数据加工三个层次。

基于广义古籍数字化概念,古籍数字化可分为古籍数字资源生产、组织、管理、整合、存储、使用、处置等多个层面,每个层面又可以划分为多个层次。

3.问题与对策

在古籍数字化论文中,以古籍数字化整体为研究对象,题目中包含“现状”、“思考”、“问题”、“对策”等的论文约占论文总量的10%,代表古籍数字化的宏观研究和部分中观研究。为了便于统计,选择1998至2015年间,不同作者的论文50篇,从中提取与古籍数字化现存问题相关的条目208个,可归纳为16个问题,如表1-2所示。而问题的对策往往都是问题解决的主体、思路、必要条件、紧迫性、重要性等。

表1-2 古籍数字化现存问题统计表

表1-2中列出的16个问题涉及古籍数字化的多个层面,相对独立又彼此联系,其中的大部分问题从古籍数字化概念提出伊始就已经提出,但时至今日仍然未能解决,最直接的原因就是古籍数字化主体的多元化。王立清在《关于多元古籍数字化主体的探讨》中提出,由于选择的界定标准和角度不同,划定的主体范围就会出现较大的差异,如果按照广义的古籍数字化活动所及的范围来界定,古籍数字化的主体可以包括制作者、利用者、管理控制者、研究者等等[53]

古籍数字化研究者提出上述16个问题,国内古籍数字化研究力量以高等院校图书馆与专业院系为主,也涉及一些专业研究院所、公共图书馆、档案馆和博物馆等,论文发表在图书情报、档案文献、编辑出版、语言文字、科学管理等社会科学期刊,科技、医药、计算机等自然与技术科学期刊,以及少数交叉学科(如医学信息等)与部分院校学报等,其中包含40种图书情报学期刊,共载文215篇,占总载文量的59.56%[54]

古籍数字化管理者缺位,造成了古籍数字化标准规范、规划、政策支持、经费支持、人才培养、古籍数字资源质量等一系列问题。

古籍数字化使用者,包括现实用户和潜在用户,很大程度上决定着古籍数字化的需求[55]。使用者呈不断扩大的趋势,从最初的人文社科领域研究者,到高等院校相关专业的研究生、本科生等,再到文史或文化爱好者、一般性阅读者等。使用者的需求是古籍数字化发展的直接动力。

古籍数字化建设者是古籍数字化的核心力量,决定古籍数字化行业的发展方向。李明杰等在《中文古籍数字化的主体构成及协作机制初探》中指出,通过网络调研和文献调查发现,参与古籍数字化的主体主要由三类机构构成,即图书馆、学术机构和数字企业。从构成数量来看,图书馆最多,有79家,占65.3%;学术机构其次,有33家,占27.3%;数字企业最少,只有9家,占7.4%[56]。王立清在《关于多元古籍数字化主体的探讨》中指出,古籍数字化开发主体是古籍数字化共同主体的核心组成,分为图书馆、学术科研机构、出版社、数字公司、个人、联合体等类型;每种类型的主体自身性质不同,扮演的社会角色各异,古籍数字化的目的不尽相同,针对的古籍对象也有所侧重,古籍数字化的成果形式也不完全一致[57]

图1-1 古籍数字化领域示意图

综上所述,古籍数字化的主体包含建设者、使用者、研究者、管理者等,如图1-1所示,各类主体具有不同的地位,发挥不同的作用。同时,各类主体对古籍数字化的认识、理解和关切也不尽相同。以使用者为例,首先从自身的需求出发,重视古籍数字资源中所包含文献的质与量,先考虑学术因素,后考虑技术因素,使用者对古籍数字资源的价格敏感度各不相同。

要全面认识古籍数字化领域,不能使用任何一类主体的单一视角,要综合考虑需求、成本、文献、工程、学术、技术等因素,如图1-1所示,以及各种因素间的相互限制与相互作用。古籍数字化是基于文献、面向用户需求的工程,考虑学术含量的同时,要受成本和技术的双重限制。

4.标准规范

古籍数字化标准化问题的讨论由来已久。王桂平在《我国古籍数字化的现状及展望》中提出,实现古籍数字化的标准化和规范化,可由中国图书馆学会古籍整理专业委员会牵头,以国家图书馆、上海图书馆、南京图书馆为龙头,在深入研究的基础上,确立古籍数字化的统一著录格式和标引方法[58]。陈立新在《古籍数字化的进展与问题》中提出,古籍数字化应建立统一的古籍机读目录、支持古籍数字化的汉字平台、古籍文献规范文档、古籍影像处理标准等[59]。陈阳在《中文古籍数字化的成果与存在问题》中提出,如果相关部门能够联合从事古籍数字化的主要单位,制订古籍数字化的统一标准,实现标准化、规范化,在此基础上进行分工合作,建立可共享的资源体系,必定能够促进国内数字化古籍的开发与利用[60]。李筑宁在《关于古籍资源数字化建设中几个问题的探讨》中提出,在古籍数据库建设过程中,各参加馆要坚持执行统一的标准规范,如统一的用户界面、数据格式、数据库建设规则、信息交换协议、馆际互借协议等;数据加工技术采用国际标准、国内标准;服务系统软硬件配置要采用国际通用的开放式操作系统平台技术,网络通信协议TCP/IP技术,面向广域网的数据库技术等[61]。高娟等在《中国大陆地区古籍数字化问题及对策》中提出,在古籍数字化的标准建设上,目前最为迫切的是对国内外已有古籍数字化相关的国际标准、国家标准、行业标准等进行全面分析评价,在此基础上依据我国古籍数字化工程的目标与任务,建立可为各数字化主体认可的标准规范体系框架以及可以共同遵守的统一标准[62]

古籍数字化标准就是在古籍数字化过程中以达到最佳有序化程度为目的,共同遵守的准则和依据[63]。古籍数字化标准可以理解为以“最佳秩序”将所采集的古籍(文本)数据有效组织起来,进行存储、交换、应用及共享的一种手段和工具[64]。古籍数字化相关标准是指由相关部门发布,可直接应用于指导古籍数字化工作的标准[65]

古籍数字化标准体系是古籍数字化标准按其内在联系形成的有机整体。贺科伟在《我国古籍数字化标准体系建设刍议》中提出,我国古籍数字化标准体系包括古籍版本标准、古籍分类标准、字符集标准、储存格式标准、古籍影像处理标准、检索标准、元数据标准等[66]。古籍数字化标准体系应是以技术标准体系为主,包括为实现技术标准的要求而建立的管理标准体系、工作标准体系,以及为有效运行全过程标准化的各项管理要素在内的标准体系,且都应满足目的性、集成性、层次性、动态性和阶段性的要求;技术标准是开展数字化古籍作业的技术条件,包括作业对象、作业条件、作业方式等所作的规定,包括古籍(版本)择取标准、加工标准、设备标准、元数据标准、数据库标准、检索标准、软件标准等;管理标准是对古籍数字化业务流程中各个环节所作的具体规定,包括项目选题与评估、分类体系、设备管理、作业流程管理、业务外包管理以及标准化管理等;工作标准是对负责项目开发的机构、相关人员的职责、工作要求、考核办法所作的规定,包括职责权利、工作程序、办事细则、考核标准和相互关系准则等[67]。古籍数字化标准体系框架包括技术标准、管理标准和工作标准;技术标准是古籍数字化标准体系的核心,包含古籍版本开放标准、数据加工标准、文档存储标准、著录标准、元数据标准、数据库标准、检索标准、设备标准、软件标准等九类;管理标准是古籍数字化标准化工作的指导,包含选题与评估标准、项目开发管理标准、典藏古籍管理标准、古籍资源分类标准和标准化管理标准五类;工作标准是对古籍数字化具体工作内容的规范,包含作业流程标准、设备管理标准、质量测评标准和业务外包标准等四类[68]

基于广义古籍数字化概念,古籍数字化标准体系可划分为引用标准集、专门标准集和参考标准集,如图1-2所示。

图1-2 古籍数字化标准体系示意图

引用标准集是古籍数字化标准体系的基础,包含大量其他领域可直接应用于古籍数字化的标准,例如汉语信息处理词汇01:部分基本术语(GB/T12200.1-1990)、汉语信息处理词汇02部分汉语和汉字(GB/T12200.2-1994)、信息技术中文编码字符集(GB18030-2005)、中国机读规范格式(WH/T15-2002)、信息与文献都柏林核心元数据元素集(GB/T25100-2010)、图书馆馆藏资源数字化加工规范第3部分:图像资源(GB/T31219.3-2014)、信息技术连续色调静态图像的数字压缩及编码第1部分要求和指南(GB/T17235.1-1998)、信息技术JPEG2000图像编码系统第1部分核心编码系统(GB/T30248.1-2013)、电子成像文件图像压缩方法选择指南(GB/Z19736-2005)、信息技术可扩展置标语言(XML)1.0(GB/T18793-2002)、文献管理长期保存的电子文档文件格式第1部分:PDF1.4(PDF/A-1)的使用(GB/T23286.1-2009)、数字对象唯一标识符规范(WH/T48-2012)、数字资源长期保存元数据规范(WH/Z1-2012)、管理元数据规范(WH/T52-2012)等。

参考标准集是古籍数字化标准体系的重要补充,包含大量其他领域可间接或部分应用于古籍数字化的标准,例如汉文古籍特藏藏品定级第1部分:古籍(GB/T 31076.1-2014)、古籍修复技术规范与质量要求(GB/T21712-2008)、缩微摄影技术在16mm卷片上拍摄古籍的规定(GB/T7517-2004)、缩微摄影技术在35mm卷片上拍摄古籍的规定(GB/T7518-2005)、索引编制规则(总则)(GB/T22466-2008)、数码照相机术语(GB/T20733-2006)、数码照相机曝光指数、ISO感光度值、标准输出灵敏度和推荐曝光指数的确定(GB/T20224-2006)、照相镜头第1部分:变焦距镜头(GB/T9917.1-2002)、照相镜头第2部分:定焦距镜头(GB/T9917.2-2008)、平板式扫描仪通用规范(GB/T18788-2008)、图解技术输入扫描仪校准用彩色反射指标(ANSIIT8.7/2-1993)等。

专门标准集是古籍数字化标准体系的核心,包含大量专门为古籍数字化制定的标准。专门标准集又可以划分为核心标准子集和扩展标准子集。核心标准子集基于狭义古籍数字化概念,包括数据标准和加工流程标准两类。数据标准可以划分为元数据标准、对象数据标准、知识数据标准和数据加工所需数据标准四个子类。加工流程标准既可以按照数据类型分类,也可以按照加工工序分类。目前,我国大陆地区已发布的古籍数字化专门标准如下:

国家标准:古籍著录规则(GB/T3792.7-2008)。

行业标准:古籍元数据规范(WH/T66-2014)。

机构(或项目)标准:国家数字图书馆标准规范,包含古籍元数据标准与著录规范、家谱元数据标准与著录规范、拓片元数据标准与著录规范、舆图元数据标准与著录规范、甲骨元数据标准与著录规范、中文文献全文版式还原与全文输入XML规范[69]、古籍用字规范、生僻字避讳字处理规范等;我国数字图书馆标准规范建设项目(2002DEA20018)成果,包含古籍元数据规范、家谱元数据规范、拓片元数据规范、舆图元数据规范、地方志元数据规范等;大学数字图书馆国际合作计划(China Academic Digital Associative Library,CADAL)项目标准,包含古籍元数据著录规范、古籍数字对象制作规范[70]等。

上述标准都属于数据标准,且大多数为元数据标准,只有“中文文献全文版式还原与全文输入XML规范”和“古籍数字对象制作规范”为对象数据标准,“古籍用字规范”和“生僻字避讳字处理规范”为数据加工所需数据标准。

扩展标准子集基于广义古籍数字化概念,包括古籍数字资源生产标准(不包含数据标准和加工流程标准)、古籍数字资源组织标准、古籍数字资源管理标准、古籍数字资源整合标准、古籍数字资源存储标准、古籍数字资源使用标准、古籍数字资源处置标准等多个子类。

此外,还有一类标准在范围中明确指出不适用于古籍,应排除在古籍数字化标准体系之外,例如图书馆馆藏资源数字化加工规范第2部分:文本资源(GB/T31219.2-2014)等。