1
古籍文本数据格式比较研究
1.2.3.2 (二)服务学术
(二)服务学术

古籍文本数据作为学术资源,必须具备一定的学术含量,满足学术研究的要求。这就要求在古籍文本化过程中投入必要的学术资源,或由相关领域专家学者直接参与到文本化项目中,或将相关领域的学术成果软件化、数据化,并以正确的方式应用到文本化项目中。然而,在已有的古籍文本化产品中,绝大部分数据质量问题都与学术资源投入不足有关。以《文渊阁四库全书电子版》[100]为例,该项目的文字认同规则中要求依据原书上下文对“已/巳/己”进行辨析,按照辨析的结果进行文字转换;以《钦定四库全书总目》中出现的“己巳”(干支计年、计月或计日)为样本,共出现40次,转换正确11次,转换为“已巳”20次,转换为“巳巳”9次,“已/巳/己”单字转换错误29处,错误率为36.25%,与抽检错误率0.367%%[101]进行比较,两者差别巨大;“已/巳/己”在文本数据中共出现1494994字次[102],占文字总量的0.2%,对项目整体的文字错误率影响很大;究其原因,“已/巳/己”辨识具有一定的学术含量,若没有专家指导或专业人员投入,正确率难以保证。