1
文本自动标引与自动分类研究
1.6.2.3 10.3 实验结果及分析

10.3 实验结果及分析

表10-1 非层次分类下的分类结果(片段)

img139

按照以上思路,为便于对比,本书仍只采用TF-IDF权值计算法和向量最短距离分类器,语料选择ChinaInfoBank数据集,类目体系按照两层进行分类实验测试。分类结果如表10-1所示。

经对比两种分类结果,各类正确率均有不同程度的提高,尤其是类间类目区分度较低时,其提高的幅度更大。当然,在每一层进行模型匹配以选择最合适的类别时都会有一定的误差,层数越往下,总误差会越大,这会导致少数类目的召回率和准确率比单层结构下的略低。不过,从总体来看,多层结构下的分类准确率是优于单层结构的,尤其是对于那些相对全部类来说,特征比较模糊的类别提高的效果更明显。

由于层次分类算法在与其他方法集成时存在一定的交叉计算困难,所以本书也仅进行了单独测试,在最终的分类系统中,层次分类的方法并未集成进去。在未来的工作中将完成这一任务。

采用层次分类方法,在一定程度上能够修正小类间的交叉现象,提高分类正确率,但同时因匹配次数增加,提高了算法复杂度。如何在这两者间找到一个平衡点,是今后需要解决的一个问题。