1
古籍文本数据格式比较研究
1.2.2.2 (二)加工过程
(二)加工过程

古籍文本化是一个数据加工过程,王荟等在《汉语文古籍全文文本化研究》中将该过程分为3个阶段:第一阶段,全文化前期准备,包括构建全文化模型、确定全文化方法、底本选择、可数字化评估等步骤;第二阶段,全文转换,包括文字符号转化、版式转换、集外字处理、元数据加工、数据合成等步骤;第三阶段,数据检验,包括检验方法选择、错误率控制、数据检验、数据修改等步骤[96]。顾磊等在《古籍全文文本化中存在的若干问题》中将古籍全文文本化分为5个步骤,首先选择某种古籍,然后获取古籍图像,其次对古籍图像进行自动版面分析和文字分割,最后对分割出来的文字图像进行自动识别,从而将古籍中的全部文字转换成电子文本的形式[97]

本书不涉及数据加工过程,此处不再赘述。