1
文本自动标引与自动分类研究
1.5.1.3.2 6.3.2 相关度度量方法介绍

6.3.2 相关度度量方法介绍

度量两个事件相关程度的方法有很多种。如信息论中利用熵值、混乱度、互信息(MI)、相对信息(CG)、信息增益(IG)来度量,统计学上有条件概率、并发概率、Dice测度、Log L测度、x 2-统计量、Ø2-统计等方法,下面就简要介绍其中的几种度量方法。

(1)互信息(Mutual Information,MI)

在信息论或统计学中,互信息MI(W1,W2)定义为:

img46

若A、B分别表示关键词和分类号出现的事件,则MI(A,B)可表示关键词与分类号的相关程度,即:

若MI(A,B)>>0,则表示A、B是高度相关的;

若MI(A,B)=0,则表示A、B是独立的;

若MI(A,B)<<0,则表示A、B是互补分布的。

可以看出,互信息与事件的并发概率、每个事件出现的概率有关系。

(2)Dice测度(Dice Measure)

Dice测度的公式定义如下:

img47

利用Dice测度可估计关键词与分类号的并发概率。它排除了零概率事件的发生。

(3)Log L测度

两个事件间的Log L值定义如下:

设A1为A、B的互信息,A2为A、img48的互信息,A3为img49、B的互信息,A4为img50img51的互信息(其中img52img53分别为不包含词汇A、B的文档的情况),则A、B的Log L值为:

img54

为方便应用,将词汇A、B的各种可能出现频次转换为下面的联立表(表6-2):

表6-2 事件A、B的可能出现频次表

img55

则公式(6-9)可以转换成公式(6-10):

img56

其中:

[1]表示并发事件,即事件A(关键词出现)与事件B(分类号出现)同时发生;

[2]表示事件A发生,但事件B不发生;

[3]表示事件B发生,但事件A不发生;

[4]表示事件A和B都不发生;

[5]表示事件A发生;

[6]表示事件A不发生;

[7]表示事件B发生;

[8]表示事件B不发生;

[9]表示数据库规模。

(4)相对信息

相对信息是事件A在事件B发生和不发生条件下的信息熵之差,其表达公式如下:

img57

利用CG可以衡量关键词与分类号的相关程度。

除此之外,还有其他的一些度量方法,如相关系数法、夹角余弦法、最大-最小法、几何平均法、算术平均法、Jaccard系数法、覆盖系数法、反相似系数法、Hamming距离法等等[9],在此不再详细介绍。