(六)标准规范
古籍文本化的研究与实践必须以现行标准规范为基础。目前,古籍文本化的引用标准包括汉语信息处理词汇01:部分基本术语(GB/T12200.1-1990)、汉语信息处理词汇02部分汉语和汉字(GB/T12200.2-1994)、信息技术中文编码字符集(GB 18030-2005)、中国机读规范格式(WH/T15-2002)、信息技术可扩展置标语言(XML)1.0(GB/T18793-2002)、文献管理长期保存的电子文档文件格式第1部分:PDF1.4(PDF/A-1)的使用(GB/T23286.1-2009)、数字对象唯一标识符规范(WH/T48-2012)等。参考标准包括汉文古籍特藏藏品定级第1部分:古籍(GB/T 31076.1-2014)、古籍修复技术规范与质量要求(GB/T21712-2008)、索引编制规则(总则)(GB/T22466-2008)等。专门标准集是古籍数字化标准体系的核心,包含大量专门为古籍数字化制定的标准。专门标准包括国家数字图书馆中文文献全文版式还原与全文输入XML规范、古籍用字规范、生僻字避讳字处理规范、CADAL项目古籍数字对象制作规范等。
本书中古籍文本数据基于XML(Extensible Markup Language,可扩展标记语言),古籍文本数据格式用XMLSchema描述。XML可以用来标记数据、定义数据类型,是一种允许用户对自己的标记语言进行定义的源语言,提供统一的方法来描述和交换独立于应用程序或供应商的结构化数据,是互联网(Internet)环境中跨平台的、依赖于内容的技术,也是处理分布式结构信息的有效工具[104]。XML Schema负责定义和描述XML文档的结构和内容模式;XML Schema定义XML文档中存在哪些元素和元素之间的关系,并且可以定义元素和属性的数据类型;XML Schema针对DTD(Document Type Definition,文档类型定义)的缺点而设计的,XML Schema基于XML,没有专门的语法,可以像其他XML文件一样解析和处理,支持一系列的数据类型,提供可扩充的数据模型,支持综合命名空间,支持属性组[105]。
【注释】
[1]GB/T21712-2008,古籍修复技术规范与质量要求[S].北京:中国标准出版社,2008:1.
[2]GB/T3792.7-2008,古籍著录规则[S].北京:中国标准出版社,2008:1.
[3]GB/T31076.1-2014,汉文古籍特藏藏品定级第1部分:古籍[S].北京:中国标准出版社,2015:1.
[4]李进良,倪健中.信息网络辞典[M].北京:东方出版社,2001:281.
[5]陈志伟,盖阔.中文古籍全文数据库指要[J].图书馆学研究,2014(14):39—43.
[6]葛怀东,盖阔.中文古籍全文数据库指要[J].图书馆学研究,2014(14):39—43.刘春金等.中文古籍数字化现状分析[J].江西图书馆学刊,2008(2):112—113.
[7]王荟,肖禹.汉语文古籍全文文本化研究[M].北京:国家图书馆出版社,2012.王燕.浅谈数字图书馆中的图形化查询技术——GIS在北京大学古文献资源库中的应用[J].大学图书馆学报,2006(1):58—62.
[8]李国新.中国古籍资源数字化的进展与任务[J].大学图书馆学报,2002(1):21—26.林颖,程佳羽.一种灵活可扩展的古籍数字对象的设计与实现[J].图书馆杂志,2014(12):56—60.
[9]陈力.中文古籍数字化方法之检讨[J].国家图书馆学刊,2005(3):11—16.赵云.图书馆古籍数字化前处理工作研究[J].农业图书情报学刊,2007(3):121—123.
[10]毛建军.古籍数字化的概念与内涵[J].图书馆理论与实践,2007(4):82—84.
[11]李明杰.古籍网络资源述略[J].图书馆建设,2002(3):84—86.
[12]许红健.台湾中文古籍数字化成果特色谈[J].农业图书情报学刊,2009(1):130—133.
[13]毛建军.欧美地区中文古籍数字化概述[J].数字与缩微影像,2008(1):36—38.
[14]厉莉.古籍数字化的现状及对策[J].江西图书馆学刊,2002(1):57—58.
[15]王立清.港台地区古籍数字化现状分析及启示[J].图书情报工作,2006(8):87—90.
[16]葛怀东,盖阔.中文古籍全文数据库指要[J].图书馆学研究,2014(14):39—43.刘春金等.中文古籍数字化现状分析[J].江西图书馆学刊,2008(2):112—113.
[17]王荟,肖禹.汉语文古籍全文文本化研究[M].北京:国家图书馆出版社,2012.王燕.浅谈数字图书馆中的图形化查询技术——GIS在北京大学古文献资源库中的应用[J].大学图书馆学报,2006(1):58—62.
[18]李国新.中国古籍资源数字化的进展与任务[J].大学图书馆学报,2002(1):21—26.林颖,程佳羽.一种灵活可扩展的古籍数字对象的设计与实现[J].图书馆杂志,2014(12):56—60.
[19]陈力.中文古籍数字化方法之检讨[J].国家图书馆学刊,2005(3):11—16.赵云.图书馆古籍数字化前处理工作研究[J].农业图书情报学刊,2007(3):121—123.
[20]常继红,魏晓峰.国内古籍数字化研究进展与启示[J].河北科技图苑,2014(3):82—85
[21]王立清.中文古籍数字化研究[M].北京:国家图书馆出版社,2011:18.
[22]刘炜.上海图书馆古籍数字化的初步尝试[J].图书馆杂志,1997(4):33—34.
[23]陈洪澜.中国古籍电子化发展趋势及其问题[J].中国典籍与文化,1998(4):121—126.
[24]李运富.谈古籍电子版的保真原则和整理原则[J].古籍整理研究学刊,2000(1):1—7
[25]彭江岸.论古籍的数字化[J].河南图书馆学刊,2000(2):63—65.
[26]王桂平.我国古籍数字化的现状及展望[J].图书情报知识,2000(4):50—54.
[27]乔红霞.关于古籍全文数据库建设作的思考[J].河南图书馆学刊,2001(4):58—60.
[28]厉莉.古籍数字化的现状及对策[J].江西图书馆学刊,2002(1):57—58.
[29]刘琳,吴洪泽.古籍整理学[M].成都:四川大学出版社,2003:335.
[30]陈阳.中文古籍数字化的成果与存在问题[J].出版科学,2003(4):47—48.
[31]段泽勇,李弘毅.古籍数字化的回顾与展望[J].图书馆理论与实践,2004(2):37—39
[32]李明杰.中文古籍数字化基本理论问题刍议[J].图书馆论坛,2005(5):97—100.
[33]陈力.中文古籍数字化的再思考[J].国家图书馆学刊,2006(2):42—49.
[34]毛建军.古籍数字化的概念与内涵[J].图书馆理论与实践,2007(4):82—84.
[35]张轴材.典籍数字化与搜索:与流,深与浅[OL].[2016-6-29].http://www.guoxue.com/zt/gjszh/yjwz_027.htm.
[36]秦长江.中国古籍数字化建设若干问题的思考[J].兰台世界,2008(4):12—13.
[37]童顺荣.古籍数字化相关问题的开放思考[J].兰台世界,2009(18):17—18.
[38]李筑宁.关于古籍资源数字化建设中几个问题的探讨[J].图书情报工作,2010(S1):312—315
[39]王立清.中文古籍数字化研究[M].北京:国家图书馆出版社,2011:20—21.
[40]王延开.古籍使用方案解析与古籍数字化发展方向的再思考[J].南昌教育学院学报,2011(7):31—33.
[41]徐金铸.中文古籍数字化建设理论问题浅论[J].齐齐哈尔大学学报(哲学社会科学版),2012(6):178—179.
[42]葛怀东.“古籍数字化”课程的建设与实践[J].兰州教育学院学报,2013(2):106—107.
[43]高娟,刘家真.中国大陆地区古籍数字化问题及对策[J].中国图书馆学报,2013(4):110—119.
[44]牛红广.关于古籍数字化性质及开发的思考[J].图书馆,2014(2):107—108.
[45]沈孟璎.新中国60年新词新语词典[M].成都:四川辞书出版社,2009:400.
[46]亢世勇,刘海润.现代汉语新词语词典[M].上海:上海辞书出版社,2009:283.
[47]亢世勇.新词语大词典[M].上海:上海辞书出版社,2003:1117.
[48]徐清,石向实,王唯.古数字化资源的深度开发[J].图书情报工作,2007(3):95—97.
[49]王立清中文古籍数字化研究[M].北京:国家图书馆出版社,2011:25
[50]王向前.高校图书馆古籍数字化建设层次、问题及应对策略[J].贵图学苑,2016(1):65—67.
[51]马创新,曲维光,陈小荷.中文古籍数字化的开发层次和发展趋势[J].图书馆,2014(2):104—106
[52]毛建军.古籍数字化理论与实践[M].北京:航空工业出版社,2009:8—11.
[53]王立清.关于多元古籍数字化主体的探讨[J].图书馆学研究,2011(4):53—58
[54]常继红,魏晓峰.国内古籍数字化研究进展与启示[J].河北科技图苑,2014(3):82—85.
[55]王立清..中文古籍数字化研究[M].北京:国家图书馆出版社,2011:100.
[56]李明杰,俞优优.中文古籍数字化的主体构成及协作机制初探[J].图书与情报,2010(1):34—44
[57]王立清.:关于多元古籍数字化主体的探讨[J].图书馆学研究,2011(4):53—58.
[58]王桂平.我国古籍数字化的现状及展望[J].图书情报知识,2000(4):50—51.
[59]陈立新.古籍数字化的进展与问题[J].上海高校图书情报工作研究,36—38.
[60]陈阳.中文古籍数字化的成果与存在问题[J].出版科学,2003(4):47—48.
[61]李筑宁.关于古籍资数字化建设中几个问题的探讨[J].图书情报工作,2010(S1):312—315.
[62]高娟,刘家真.中国大陆地区古籍数字化问题及对策[J].中国图书馆学报,2013(4):110—119.
[63]姚俊元.关于制定古籍数字化标准的思考[J].图书馆理论与实践,2010(2):50—52.
[64]葛怀东.论古籍数字化标准体系建设[J].图书馆学刊,2013(1):47—49.
[65]张文亮,尚奋宇.我国古籍数字化标准体系现状调查及优化策略[J].国家图书馆学刊,2015(6):83—89.
[66]贺科伟.我国古籍数字化标准体系建设刍议[J].科技与出版,2011(8):76—79.
[67]葛怀东.论古籍数字化标准体系建设[J].图书馆学刊,2013(1):47—49.
[68]张文亮,尚奋宇.我国古籍数字化标准体系现状调查及优化策略[J].国家图书馆学刊,2015(6):83—89
[69]该标准名为“中文文献全文版式还原与全文输入XML规范”,依据古籍全文文本化的需求编制,虽然适用范围中包含古籍和普通中文文献,但是在实际应用中,只适用于古籍,因此列为古籍数字化标准。
[70]该标准规定了古籍数字对象制作过程中的原则、采集要素、加工标准、存储格式、目录结构、特例处理等。
[71]史睿.论中国古籍的数字化与人文学术研究[J].北京图书馆学刊,1999(2):28—35.
[72]郑永晓.古籍数字化对学术的影响及其发展方向[J].社会科学管理与评论,2006(4):81—88.
[73]吴夏平.古籍数字化与学术研究[J].贵州教育学院学报(社会科学),2007(6):69—72.
[74]郑永晓.文献数字化背景下的学术研究——以人文科学为例[J].重庆教育学院学报,2012(3):76—79.
[75]吴夏平.古籍数字化与学术异化[J].山西师大学报(社会科学版),2012(5):131—135.
[76]“数字人文”的产生、发展与前沿[OL].[2016-6-29].http://blog.sciencenet.cn/blog-67855-275758.html.
[77]What Is Humanities Computing and What Is Not?[OL].[2016-6-29].http://computerphilologie.uni-muenchen.de/jg02/unsworth.html.
[78]From pamphlet to pixel:the humanities in transition[OL].[2016-6-29].http://www.cam.ac.uk/research/discussion/
from-pamphlet-t。-pixel-the-humanities-in-transition.
[79]“数字人文”的产生、发展与前沿[OL].[2016-6-29].http://blog.sciencenet.cn/blog-67855-275758.html.
[80]郭金龙,许鑫.数字人文中的文本挖掘研究[J].大学图书馆学报,2012(3):11—18.
[81]“数字人文”的产生、发展与前沿[OL].[2016-6-29].http://blog.sciencenet.cn/blog-67855-275758.html.
[82]Michael A.Keller.数字人文和计算化社会科学及其对图书馆的挑战[J].现代情报,2014(10):1—3.
[83]French Revolution Digital Archive[OL].[2016-6-29].http://frda.stanford.edu./.
[84]The Valley of the Shadow Two Communities in the American Civil War[OL].[2016-6-29].http://valley.lib.virginia.edu./.
[85]ORBIS[OL].[2016-6-29].https://digitalhumanities.stanford.edu/projects/orbis.
[86]8Kindred Britain[OL].[2016-6-29].http://kindred.stanford.edu/.
[87]Spatial History Project[OL].[2016-6-29].http://web.stanford.edu/group/spatialhistory/cgi-bin/site/index.php.
[88]Composing Souther[OL].[2016-6-29].http://wwwjacquelinehettel.com/composing-southern/.
[89]吕乃基.技术“遮蔽”了什么?[J].哲学研究,2010(7):89—94.
[90]吴夏平.古籍数字化与学术异化[J].山西师大学报(社会科学版),2012(5):131—135.
[91]陈瑜.中文古籍数字化与知识遮蔽[J].大学图书情报学刊,2015(1):71-74.
[92]文渊阁四库全书电子版[EB].上海:上海人民出版社,1999.
[93]《文渊阁四库全书》最新3.0版(内联网版/网上版)产品小册子[OL].[2016-6-29].http://www.sikuquanshu.com/Html/GB/product/download/3.0leaflet_gb.pdf.
[94]郑永晓.古籍数字化对学术的影响及其发展方向[J].社会科学管理与评论,2006(4):81—88.
[95]吴夏平.古籍数字化与学术异化[J].山西师大学报(社会科学版),2012(5):131—135.
[96]王荟,肖禹.汉语文古籍全文文本化研究[M].北京:国家图书馆出版社,2012:79—101.
[97]顾磊,赵阳.古籍全文文本化中存在的若干问题[J].图书馆学研究,2013(20):31—36
[98]杨琳.理想电子古籍的标准[J].中国典籍与文化,2009(4):51—57.
[99]王荟,肖禹.汉语文古籍全文文本化研究[M].北京:国家图书馆出版社,2012:10—12.
[100]文渊阁四库全书电子版[EB].上海:上海人民出版社,1999.
[101]《文渊阁四库全书电子版》序言中指出“经过国家图书馆善本部专家抽测,文本的错误率为:经部0.756%%(抽检字量1931023),史部0.590%%(抽检字量1033914),子部0.547%%(抽检字量657172),集部0.100%%(抽检字量4120351),均低于1%%”,依据上述数据计算可以得到:抽检文字总量为7742460,占全文数据总量的1.1%,在抽检数据中经部有146个错误,史部有61个错误,子部有36个错误,集部有41个错误,平均错误率为0.367%%。
[102]使用书同文的古籍字频在线查询工具统计得到,古籍字频在线查询工具[OL].[2016-6-29].http://hanzi.unihan.com.cn/Tools/Frequency/.
[103]毛建军.中文古籍全文数据库的类型与规范[J].中国索引,2008(2):14—18.
[104]XML简介[OL].[2016-6-29].http://www.w3school.com .cn/xml/xml_intro.asp.
[105]2XMLSchema简介[OL].[2016-6-29].http://www.w3school.com .cn/schema/schema_intro.asp