全屏显示专题章节

在信息论中，互信息（Mutual－Information，MI）是用于衡量两个随机变量的依赖程度的。其值越大，则两者依赖程度越高。具体到自动分类领域，可以借鉴该理论进行特征词与文档类关联程度计算。其计算公式如下：

其中：A为t和c同时出现的次数；B为t出现而c没有出现的次数；C为c出现而t没有出现的次数；N为所有文档数。如果t和c不相关，则I（t，c）值为0。据此可以进行特征项的选择，即MI值大的特征项。但相关研究表明，MI有利于低频特征项的选取，这是一个不利因素^［4］。

通过对互信息算法的分析可知，对于特征t和类c，若I（t，c）＞0，则先验概率p（t）越小或后验概率p（t｜c）越大时，互信息量越大，互信息量的绝对值越大；反之，互信息量的绝对值越小。若I（t，c）＜0，则先验概率p（t）越小或后验概率p（t｜c）越大时，互信息量越小，互信息量的绝对值越大；反之，互信息量的绝对值越小。换言之，p（t）和p（t｜c）越相近，即t和c的相互关联越弱时，互信息量的绝对值越小；反之，互信息量的绝对值越大。传统的互信息算法没有考虑特征存在负值时，互信息量对分类的影响，因此削弱了这些特征在分类中的作用。卢新国提出一种改进的互信息算法^［8］，通过对特征t和类c的互信息量I（t，c）取绝对值来克服以上缺陷。其改进互信息算法如下：

其中p（t）表示特征t的概率；p（t｜c_i）表示特征在类c_i下的条件概率；p（c_i）表示第i类的概率；I（t，c_i）为特征t与类c_i的互信息量。