1
文本自动标引与自动分类研究
1.6.1.1.1 9.1.1 最小距离分类器(Rocchio算法)

9.1.1 最小距离分类器(Rocchio算法)

该方法是文档分类的经典方法,借助于VSM模型,为每一个类别Ci建立原型向量,公式示意如下:

img104

上式中N为第i类训练文本的总数,Dn为第n个训练文本的特征向量表示。通过表示各个训练样本的特征,即可求出每个类的中心向量Ci,然后根据文档向量和类别原型向量的距离(大多采用夹角衡量),确定文档的类别[1]。其公式示意如下:

img105

上式中,wdk、wik分别表示的是待分类文本D与第i类Ci对应的第k个主题词的权值;得出的C类为Sim(D,Ci)最大值对应的类。类别Ci的原型向量是通过计算属于该类别的所有文档向量的平均值而得到的。相关实验表明,最小距离分类算法的特点是速度快,但精度相对较低。