1
文本自动标引与自动分类研究
1.5.3.3 8.3 《全国报刊索引》自动标引与自动分类系统介绍

8.3 《全国报刊索引》自动标引与自动分类系统介绍

《全国报刊索引》自动标引与自动分类系统是用于中文报刊信息的自动标引与自动分类的系统[1]。该系统的主要原理为:在中文文本分词、词频统计、标引源位置加权等基础上完成文本的自动标引,然后将标引结果(关键词串或者经过规范化的主题词串)与分类知识库中实例(即关键词串-分类号对应记录)进行语义相似度计算,将相似度最大的实例所对应类号作为文本分类结果(或采用K近邻等分类方法得到分类结果)。

《全国报刊索引》自动标引与自动分类系统中分类知识库已经涵盖中图法A~K等大类。每个大类的分类知识库规模、类目数、抽词词典的规模如表8-5所示。

《全国报刊索引》自动标引与自动分类系统如图8-2所示。

表8-5 分类知识库规模

img102

img103

图8-2 《全国报刊索引》自动标引与自动分类系统主界面