1
文本自动标引与自动分类研究
1.5.2.3.4 7.3.4 自动分类中语义相似度匹配算法

7.3.4 自动分类中语义相似度匹配算法

在进行文本自动标引和分类时,如何对文本进行自动分类是一个关键性的问题。一般的做法是先对概念词串进行提取,得到一系列词串,将它们与分类知识库进行一一匹配,这种方法就是简单的字面匹配方法。薛鹏军在其毕业论文中是以词的字面(词素)相似度匹配来代替单字的字面相似度进行自动分类的。可以看出,无论是字面还是词面,都有不可克服的问题存在着。因为这两种方法都不能解决字面或者词面上不同,但意思相同或者相近的同义词问题。如计算“经济”和“商业”这两个词汇间的相似度,用字面或词面匹配的方法结果都为“0”,即不能很好地识别它们之间存在的联系;再如:“马铃薯”与“土豆”,利用字面或者词面进行相似度计算就显得无能为力了。

在进行文本的自动分类时,本系统对提取出来的概念词串利用语义相似度算法在分类知识库中寻找到与其最相似(即相似度最大)的主题词串,并给出对应的分类号,这样便完成了文本的自动分类过程。

具体的相似度算法与7.3.2小节相同,不再赘述。