1
文本自动标引与自动分类研究
1.6.1.5 9.5 实验结果及分析

9.5 实验结果及分析

为了具有可比性,我们同样只采取TF-IDF权值法和最短距离法用于统计分类,同时结合规则分类进行验证。采用China Info Bank语料集,按照以上方法,我们进行了测试。测试结果表明,总体查准率提高了2.78%。修正结果正确的部分示例如表9-5所示。

表9-5 修正正确的部分示例结果

img134

分类别统计结果如表9-6所示。从表9-6的结果可以看出,由于将规则提取仅限于标题,大大减少了规则提取工作量,同时由于标题是反映主题的最重要的因素,依据其进行规则辅助分类,确实具有一定的补充作用(见表9-6中上箭头行)。

但同时可以看出,部分类目的正确率反而有所下降(见表9-6中下箭头行),部分类目没有变化,主要原因:一是规则分类的结果也有一部分本身不正确所致,二是统计分类与规则分类重合率较大。所以如何发挥两者优势,提升分类效率和性能,还有很多工作要做。

表9-6 加入规则补充分类的测试结果

img135