1
文本自动标引与自动分类研究
1.5.2.1 7.1 概 述

7.1 概 述

文本的语义分析是自然语言学习和信息检索中面临的最大挑战之一,其中的一个基础工作就是计算词语的语义相似度。计算词语的语义相似度有着广阔的应用空间,例如:在词语获取上,相似度发挥了非常重要的作用[1];在学习一个词的定义时,通过词语相似度计算可识别词语的相似词;在机器翻译中,通过词语相似度计算识别同义词可以明显提高翻译的质量;在信息检索中,依据词语间语义相似度可以扩展检索式或者向用户推荐同义词。本书研究词语相似度计算,目的是将词语相似度用于文本自动分类中,即:将文本自动标引结果(关键词串或主题词串)与分类知识库中的实例进行相似度计算,依据最近邻等自动分类方法,完成文本自动分类。

本章首先对词语相似度的研究进行综述,随后采用《同义词词林》作为语义体系,对中文词语的相似度计算进行了初步研究,最后,以词语相似度计算为基础,设计并实现了中文同义词挖掘系统,并对系统进行测评。