1
文本自动标引与自动分类研究
1.5.2.2.3 7.2.3 词语相似度计算的混合方法

7.2.3 词语相似度计算的混合方法

以上两种方法各有特点。基于语料库的方法比较客观,比较依赖于训练所用的语料库,受数据稀疏和数据噪声的干扰较大。基于本体的方法简单有效,但得到的结果受人的主观意识影响较大。利用混合技术计算词汇间语义相似度的思想就是:将统计技术和基于本体的技术结合起来,发挥两种算法各自的优势进行词汇间的语义相似度的计算。由于统计方法会出现数据缺乏这一典型问题,由于数据缺乏,使得计算出来的词汇间的语义相似度很低,影响了近义词或同义词的识别效率。混合方法就是针对这一问题,利用本体知识对稀疏数据进行扩充,从而完善识别效果。用混合方法来进行词汇间的语义相似度计算的主要有Jiang,Resnik等人[20][14]