全屏显示专题章节

文本的语义分析是自然语言学习和信息检索中面临的最大挑战之一，其中的一个基础工作就是计算词语的语义相似度。计算词语的语义相似度有着广阔的应用空间，例如：在词语获取上，相似度发挥了非常重要的作用^［1］；在学习一个词的定义时，通过词语相似度计算可识别词语的相似词；在机器翻译中，通过词语相似度计算识别同义词可以明显提高翻译的质量；在信息检索中，依据词语间语义相似度可以扩展检索式或者向用户推荐同义词。本书研究词语相似度计算，目的是将词语相似度用于文本自动分类中，即：将文本自动标引结果（关键词串或主题词串）与分类知识库中的实例进行相似度计算，依据最近邻等自动分类方法，完成文本自动分类。

本章首先对词语相似度的研究进行综述，随后采用《同义词词林》作为语义体系，对中文词语的相似度计算进行了初步研究，最后，以词语相似度计算为基础，设计并实现了中文同义词挖掘系统，并对系统进行测评。