1
文本自动标引与自动分类研究
1.6.3.2.1 11.2.1 功能模块结构

11.2.1 功能模块结构

如图11-3所示,系统主要包括词典维护模块、训练模块、分类模块等。其中:

1.1:具体进行抽词词典的增、删、改及重新索引排序工作。

1.2:对原始语料库的训练集及测试集进行统计维护。

1.3:对系统的批分类结果进行各项指标统计。

2.1:进行语料库的训练工作,主要完成:①抽词、词频统计、各特征选择及权值计算、最终的向量知识库生成;②基于题名的规则库生成。

2.2:对生成的结果进行查看。

3.1:单条测试文档的分类过程,根据该功能,可以得到标引结果及分类推荐最优三个类目,可以进行规则修正并给出结果。

3.2:针对一批文档进行分类和规则修正。