1
文本自动标引与自动分类研究
1.5.1.7 6.7 本章小结

6.7 本章小结

本章针对知识库中关键词与分类号的非确定对应关系,结合信息论和统计学上测量事务相关程度的方法,并引入了兴趣度约束和规则约束,进行关键词与分类号相关程度的度量,从而确定关键词与分类号的关联,构建文本自动分类用的分类知识库。

从测试结果可以看出,采用分类知识库对随机抽取的网页的标引正确率接近80%,词表的编制速度快,开放性好,有着良好的文献保障,对新知识反映速度快,可以标引绝大多数经济类网页。另外,本章还简要说明了篇名知识库的制作,利用篇名知识可扩充知识库功能,提高分类的精度。同时,分类知识库的制作还存在一些问题,如标引质量控制是一个亟须解决的问题。