1
文本自动标引与自动分类研究
1.4.2.1.2 4.1.2 信息增益

4.1.2 信息增益

信息增益(Information Gain,IG)是信息论中的理论基础。具体应用到自动分类领域,它采用统计某个特征项在一篇文档中

出现或不出现的次数来预测文档的类别。IG的计算如下:

img24

其中:Pr(ci)表示一篇文档属于类别ci的概率;Pr(t)表示特征项t在一篇文档内出现的概率;Pr( t)表示特征项t不在一篇文档内出现的概率;Pr(ci|t)表示特征项t在属于类别ci的文档内出现的概率;Pr(ci| t)表示特征项t不在属于类别c i的文档内出现的概率;m是文档类别数。公式右一项为整个系统的熵,即系统的不确定性;右二、三项为知道特征tk出现/不出现后系统的熵。它们之间的差就是确定出现特征tk后系统不确定性的减少程度,即特征的信息增益值。在使用信息增益方法时,获得较大G (t)值的特征项,对分类贡献的作用也相应增大。