1
古籍文本数据格式比较研究
1.2.1.2 (二)古籍数字化与学术研究
(二)古籍数字化与学术研究

从古籍数字化的概念出现以来,关于古籍数字化与学术研究的讨论就从未停止过。史睿在《论中国古籍的数字化与人文学术研究》中提出,古籍数字化是一项重要的人文学术研究基础工程,利用计算机及网络技术进行深入的古籍整理工作,在当今数字化时代势在必行,它必将大幅度地提高我们学习中国古代文化的效率,定会将学者的时间和精力从艰苦而繁琐的爬梳、翻检工作中解放出来,用于推动人文学术研究的发展,对此我们充满了希望[71]。郑永晓在《古籍数字化对学术的影响及其发展方向》中提出,古籍数字化对文史工作者至少有下列影响:改变了学者查阅图书的方式;帮助学者排除冗余信息的干扰,更快地深入研究对象和研究资料的内部;可能在研究方法上影响学科的发展;对某些学科的发展产生极为深远的影响;有助于学者眼界的扩大;极大地推动了更多非专业人士参与到学术研究中来[72]。吴夏平在《古籍数字化与学术研究》中提出,古籍数字化使现代学术研究获得新的生命起点,学术转型是无可逆转的大趋势,我们最为关注的是现代信息技术与学术研究之间互通互动的问题,由于数字化本身的障碍、研究性质的差异、数字化引起思维方式的变化诸方面的因素,在文献利用时不得不具审慎的态度:一方面,我们期待更好更多的数字化成果;另一方面,应坚持现代信息技术工具本位,同时积极借鉴数字化的方法理论,创建能为我所用的独具特色的数据库[73]。郑永晓在《文献数字化背景下的学术研究——以人文科学为例》中提出,古籍数字化的进程、文献数据库的广泛利用、以IT为代表的自然科学在人文学术领域的深度参与是不以我们的意志为转移的,是一个必然快速向前发展的过程,而不可能出现倒退或逆转;从科研的角度而言,数字化有利于加快现代学术体系和研究范式的建立;从知识管理的角度而言,数字化有利于实现从数据到信息,再到知识的跨越性发展从阅读和知识传播的角度而言,现在的年轻人已经习惯了屏幕阅读,传统纸质书籍尽管还可以与电子读物并存一个较长时期,但终究会被数字化读物所取代[74]。吴夏平在《古籍数字化与学术异化》中提出,古籍数字化对现代学术进程具有积极作用,但同时也带来负面效应,或可导致学术异化,以下三方面值得特别注意:一是知识被遮蔽伪化研究论断;二是数字鸿沟拉大区域学术落差;三是技术伪装学问使伪学术加剧[75]

1.数字人文

数字人文(Digital Humanities),也称人文计算(Humanities Computing或Computing in the Humanities),它是一个将现代计算机和网络技术深入应用于传统的人文研究与教学的新型跨学科研究领域,它的产生与发展得益于数字技术的进步及其在科学领域的普及应用[76]。目前,数字人文还没有一个权威的定义。美国伊利诺伊香槟分校约翰·安斯沃斯(John Unsworth)在《什么是数字人文,什么又不是》(What Is Humanities Computing and What Is Not?)中认为,数字人文是一种代表性的实践、一种建模的方式,或者说就是一种拟态、一种推理、一个本体论约定,这种代表性的实践可一分为二,一端是高效的计算,另一端是人文沟通[77]。英国剑桥大学凯蒂·巴雷特(Katy Barrett)指出,数字人文是指用计算机技术处理和分析传统的人文研究资料,并将人文学科方法论与计算工具相结合进行人文研究,例如互动映射项目和历史文本的数字化[78]

目前,全球范围内的数字人文研究中心不下20家,主要集中在欧美日等发达国家,其中较为知名的研究中心包括:伦敦国王学院的人文计算研究中心、美国斯坦福大学的计算机辅助人文研究中心和斯坦福人文实验室、麻省理工学院的Hyperstudio、南加利福尼亚大学的数字人文研究中心、马里兰大学的人文技术研究机构、伊利诺伊大学的科学与学术情报研究中心、日本立命馆大学的京都数字文艺研究中心等;数字人文研究项目也已经在文学、历史学、艺术等多个领域得到展开,知名的项目包括:JSTOR Data For Research、Google Book Search、Perseus Project、Crowds、The MONK project、Zotero、Text Analysis Portal for Research、ANDS、中国哲学书电子化计划等等;由于数字人文项目不仅涉及传统的人文领域,还涉及数字图书馆和数字博物馆建设,所以这些项目不仅受到像美国国家人文基金会(NEH),日本科学技术振兴机构(JST),德国研究基金会(DFG),英国信息系统联合委员会(JISC),加拿大人文社会科学联合会,澳大利亚联邦政府创新、产业、科学与研究部(DIISR)等国家级的科研基金会和科研管理机构的资助,还受到了包括梅隆基金会(Mellon Foundation)、麦克阿瑟基金会(Mac Arthur Foundation)、国际图书馆联合会(IFLA)、图书与信息资源委员会、美国博物馆和图书馆学会等众多公共基金会和专门的图书馆联盟和文化遗产保护机构的资助[79]。在国内,数字人文还是一个比较新的概念,据教育部社科司统计,教育系统内有729家人文研究机构,专门的数字人文研究中心只有武汉大学2011年刚成立的一家,中国国家自然科学基金和国家社会科学基金及教育部人文社科基金尚未资助过以数字人文为主题的研究项目,目前也没有以数字人文为主题的连续性研讨会[80]

数字人文是一个正在快速发展中的文理交叉学科,其研究内容和研究边界随着数字技术的发展和深入而不断被改写,目前数字人文实践前沿包括:历史学方面的基于GIS的历史地理可视化;文学方面的文本挖掘与TEI标准;语言学方面的基于大型语料库的语料库语言学;舞蹈方面的视频捕捉、运动分析与虚拟现实再现;考古学方面的图像分析、色彩还原和数字重建;数字图书馆和网络数据库等[81]。美国斯坦福大学迈克·凯乐(Michael A.Keller)在《数字人文和计算化社会科学及其对图书馆的挑战》[82]中提出,数字人文项目可分为三类:

第一种类型,汇集数字内容的电子文献数据库,如斯坦福大学图书馆与法国国家图书馆合作的“法国大革命电子数据库”[83](French Revolution Digital Archive)、弗吉尼亚大学艾德·埃尔斯(EdAyres)的团队组织完成的“荫郁幽谷”项目[84](The Valley of the Shadow)。

第二种类型,称为“互动式学术”,有三个分支:第一个分支称为模拟模型,如斯坦福大学的ORBIS系统[85](Stan ford Geospatial Network Modelof the Roman World);第二个分支可称为参考工具,如“英国家族”项目[86](KindredBritain);第三个分支就是空间历史实验室项目[87](Spatial History Lab),如“通往自由的破碎之路”子项目(The Broken Paths of Freedom)。

第三种类型,称为“新型叙述体,如“撰写南方”项目[88](Composing Southern)。

2.知识遮蔽

知识遮蔽源于技术对知识的选择、固化和黑箱封装(在技术领域,可以把各种技术产品和过程视为黑箱,消费者也不必打开黑箱,不必理解其中艰深的科学技术,只需按指南操作,即可得到所希望的结果) ;知识因未被选择而遮蔽,技术在一部分知识进行筛选和固化之时,也就使另一部分知识淡化、边缘化,或者说被遮蔽;知识因被选择而遮蔽,科技黑箱集成了知识,消费者不必知晓、理解和学习其中的知识,这部分知识便被遗忘、被遮蔽;知识因被选择而遮蔽与因未被选择而遮蔽的重要区别在于被选择的知识虽然被遮蔽但依然存在,并对消费者发生潜移默化的影响[89]

吴夏平在《古籍数字化与学术异化》中提出,检索是数字化古籍的主要功能之一,但在检索过程中因遮蔽而产生的影响是显而易见的,主要有以下两种情况:第一种情况是古籍数字化要从海量的古籍中选择处理对象,在这个过程中,一部分古籍被数字化,另一部分则因未被选择而被舍弃,其结果就是那些未被收入数据库成为被遗忘的文献,永远无法被检索,影响数据收集的完整,进而影响研究结论的准确性;第二种情况是关键词检索导致的检索结果不全面,检准率较低[90]。陈瑜在《中文古籍数字化与知识遮蔽》中提出,知识遮蔽是古籍文献数字化利用过程中的共有现象,涉及数字化过程中技术和应用、理论和实践等多领域,具有跨学科性质,其实质是技术和学术的关系,“坐拥书城”导致思维惰性和视野狭窄,面对海量信息无所适从,不能执简驭繁;知识遮蔽的成因包括知识信息因未被选择而被遮蔽、检索功能局限导致知识遮蔽、忽视原典、思维惰性等[91]

知识遮蔽源于技术将知识转化为技术产品,基于广义古籍数字化概念,古籍数字资源生产、组织、管理、整合、存储、使用、处置等任何一个环节都可能发生知识遮蔽。知识遮蔽可大致分为四类:

其一,技术原因。技术是古籍数字化的基础,某些重要技术的缺失或不成熟,必将导致古籍中的部分信息被遮蔽。以《文渊阁四库全书电子版》[92]为例,该项目基于CJK+字符集(包括CJK、CJK扩A和自定义编码区,共29172个汉字和符号),采用“多特定人准规范手写OCR引擎”,无法识别的文字先进行文字认同,对无法认同的文字做字频统计,高频集外字作造字处理,低频集外字用“□”代替,并部分保留原字贴图,插图、表格、图文混排等特殊版式都作贴图处理。而《文渊阁四库全书电子版》3.0版,采用了符合Unicode5.0标准的七万多字(70195个字符)字库,按Unicode编码标准造字12592个,使可检索字符达82787个,将旧版中20万个贴图字或“□”数码化,使之可检索;将旧版中近六万个表格及年表图像数码化及版式还原,将图像标题数码化,用户可在全文检索中检出所有相关图像[93]

其二,学术原因。古籍数字化产品要具有一定的学术含量,这有赖于相关领域专家学者直接参与数字化项目,或将相关领域的学术成果技术化、工具化。但是,一方面,几乎所有学者,都认为数字化的电子版古籍很有用处,每有新的电子版古籍问世,都会迅速占领众多学者们的硬盘;另一方面,则鲜有从事历史学和古代文学研究的学者投身于此,与IT专家一道共同规划、推动古籍数字化进程[94]。这种状况造成了古籍数字化的学术缺陷,导致古籍数字化过程中的知识遮蔽。

其三,使用者主观原因。古籍数字资源使用者的治学态度、学术素养、信息素养等因素都会造成古籍数字资源使用过程中的知识遮蔽。以古籍文本检索为例,限于对检索问题的了解程度,用户不能准确地描述自己的信息需求;不能恰当地把握检索的深度,需要反复尝试不同的检索词以控制检索的规模;用自然语言检索受控语言标引的文献,造成漏检和错检[95]

其四,除了上述原因之外,还有法律、政策、成本等其他原因直接或间接造成古籍数字化过程中的知识遮蔽。已有的古籍数字化产品大部分都采用影印本作为图像采集对象,在影印过程中已经损失了古籍原本的部分信息,再以影印本为对象进行图像采集、文本化等,必将导致知识遮蔽。