1
文本自动标引与自动分类研究
1.6.3.1.3 11.1.3 维数多少对分类效果的影响分析

11.1.3 维数多少对分类效果的影响分析

前期的抽词词典的约简,在一程度上降低了最终的向量维数。但向量空间仍比较庞大(本书经测定,最大可至3 000以上),对分类有不同程度的影响,也使向量比对的复杂度提高了。为了分析向量维数的影响情况,本书选择了不同数量的维数进行比较,得出如下结果(见图11-2):

img141

图11-2 取不同维数后的分类结果对比

从图11-2可以看出,随着向量维数的增加,正确分类率在逐渐增大,但当维数增大到一定值后,正确分类率趋于稳定。至于多少比较合适,由于会有如训练语料区分度等的影响因素,没有一个固定值,只能通过不断实验确定,但这种趋势肯定是存在的。