全屏显示专题章节

1

文本自动标引与自动分类研究

1.5.2.2.3 7．2．3　词语相似度计算的混合方法

7．2．3　词语相似度计算的混合方法

以上两种方法各有特点。基于语料库的方法比较客观，比较依赖于训练所用的语料库，受数据稀疏和数据噪声的干扰较大。基于本体的方法简单有效，但得到的结果受人的主观意识影响较大。利用混合技术计算词汇间语义相似度的思想就是：将统计技术和基于本体的技术结合起来，发挥两种算法各自的优势进行词汇间的语义相似度的计算。由于统计方法会出现数据缺乏这一典型问题，由于数据缺乏，使得计算出来的词汇间的语义相似度很低，影响了近义词或同义词的识别效率。混合方法就是针对这一问题，利用本体知识对稀疏数据进行扩充，从而完善识别效果。用混合方法来进行词汇间的语义相似度计算的主要有Jiang，Resnik等人^{［20］［14］}。

上一页下一页