1
文本自动标引与自动分类研究
1.4.2.1.3 4.1.3 互信息

4.1.3 互信息

在信息论中,互信息(Mutual-Information,MI)是用于衡量两个随机变量的依赖程度的。其值越大,则两者依赖程度越高。具体到自动分类领域,可以借鉴该理论进行特征词与文档类关联程度计算。其计算公式如下:

img25

其中:A为t和c同时出现的次数;B为t出现而c没有出现的次数;C为c出现而t没有出现的次数;N为所有文档数。如果t和c不相关,则I(t,c)值为0。据此可以进行特征项的选择,即MI值大的特征项。但相关研究表明,MI有利于低频特征项的选取,这是一个不利因素[4]

通过对互信息算法的分析可知,对于特征t和类c,若I(t,c)>0,则先验概率p(t)越小或后验概率p(t|c)越大时,互信息量越大,互信息量的绝对值越大;反之,互信息量的绝对值越小。若I(t,c)<0,则先验概率p(t)越小或后验概率p(t|c)越大时,互信息量越小,互信息量的绝对值越大;反之,互信息量的绝对值越小。换言之,p(t)和p(t|c)越相近,即t和c的相互关联越弱时,互信息量的绝对值越小;反之,互信息量的绝对值越大。传统的互信息算法没有考虑特征存在负值时,互信息量对分类的影响,因此削弱了这些特征在分类中的作用。卢新国提出一种改进的互信息算法[8],通过对特征t和类c的互信息量I(t,c)取绝对值来克服以上缺陷。其改进互信息算法如下:

img26

其中p(t)表示特征t的概率;p(t|ci)表示特征在类ci下的条件概率;p(ci)表示第i类的概率;I(t,ci)为特征t与类ci的互信息量。