1
文本自动标引与自动分类研究
1.4.2.1.4 4.1.4 CHI(x<sub>2</sub>)

4.1.4 CHI(x2

很多时候,特征项在类别判别的作用不单是起正面作用。如果特征项t和类c反相关,则表明含有特征项t的文档不属于c的概率反而要大一些。依据这一原理,研究人员总结出了CHI方法来计算特征项t和类c的相关性,公式如下:

img27

其中:A为t和c同时出现的次数;B为t出现而c没有出现的次数;C为c出现而t没有出现的次数;D为t和c同时没有出现的次数;N为训练集中的文档数。如果t和c不相关,则x2(t,c)值为0。一般选取较大的x2值的特征项来表征文本。

王明春提出一种改进CHI(x2)计算方法[9],其原理主要是基于特征词的贡献度有两个方向,通过对结果的开方运算,保留了特征词的正负相关性,有利于更好地进行特征选择。

综上所述,几种常用的特征选择方法各有其特色和不足部分。但归纳其规律可以发现,无论是哪一种方法,其本质都是依据特征词的频率或概率及其共现情况进行相关计算所得。这给我们一个启示:可以综合各方法的优点来综合进行特征选择和权值计算,而又不会增加太多的时间空间复杂度。本书将对这一设想进行验证实验。