1
文本自动标引与自动分类研究
1.5.1.6.5 6.6.5 篇名知识库的制作

6.6.5 篇名知识库的制作

篇名知识库中,最终用于自动分类的是篇名的进一步处理后的结果,即篇名短语。篇名短语是篇名进行停用词过滤处理后得到的词串。可以采用前面所用的测量事件相关度的方法来进行篇名短语的分类号确定。由于标引员在标引时一般是参考了篇名,所以与篇名短语对应的分类号一般比较准确,但也存在篇名短语的“一对多现象”。要给一个篇名短语确定一个最佳分类号,可以采用Dice测度等方法来解决此问题。

由于篇名知识库的制作过程与分类知识库的构建过程相似,本书不再赘述。篇名知识库记录样例如表6-12所示。

表6-12 篇名知识库样例

img73

采用篇名知识库,可以解决关键词与分类号对应中存在的复杂的仿分、复分问题,扩充分类知识库的功能。

在进行自动分类时,可以采用篇名知识库来辅助分类知识库的方式,发挥篇名知识库的性能。分类时,若通过分类知识库找不到文本的最佳类号,这时可以依据文本的篇名与篇名知识库的匹配去寻找最佳类号。