全屏显示专题章节

按照以上思路，为便于对比，本书仍只采用TF－IDF权值计算法和向量最短距离分类器，语料选择ChinaInfoBank数据集，类目体系按照两层进行分类实验测试。分类结果如表10－1所示。

经对比两种分类结果，各类正确率均有不同程度的提高，尤其是类间类目区分度较低时，其提高的幅度更大。当然，在每一层进行模型匹配以选择最合适的类别时都会有一定的误差，层数越往下，总误差会越大，这会导致少数类目的召回率和准确率比单层结构下的略低。不过，从总体来看，多层结构下的分类准确率是优于单层结构的，尤其是对于那些相对全部类来说，特征比较模糊的类别提高的效果更明显。

由于层次分类算法在与其他方法集成时存在一定的交叉计算困难，所以本书也仅进行了单独测试，在最终的分类系统中，层次分类的方法并未集成进去。在未来的工作中将完成这一任务。

采用层次分类方法，在一定程度上能够修正小类间的交叉现象，提高分类正确率，但同时因匹配次数增加，提高了算法复杂度。如何在这两者间找到一个平衡点，是今后需要解决的一个问题。