1
文本自动标引与自动分类研究
1.4.3.2.3 5.2.3 标引源权重方案的确定

5.2.3 标引源权重方案的确定

根据以上的统计分析结果,可以得出文本(若含html、title,则为Web页面)的12个标引源的主题表达能力的先后顺序如下:

bt>html>sd>ds1>title>dw1>qt>wd>ds2>dw2 >ds3>dw3

将12个标引源可以划分为如下三个级别:

第一等级:bt、html、sd;

第二等级:ds1、title、dw1;

第三等级:qt、wd、ds2、dw2、ds3、dw3。

根据这三个级别及标引源的平均分值,笔者制定的位置权重方案如下:

bt∶html∶sd∶ds1∶title∶dw1∶qt∶wd∶ds2∶dw2∶ds3∶dw3=5∶5∶5∶4∶4∶4∶2∶2∶2∶2∶2∶2