1
文本自动标引与自动分类研究
1.4.3.3 5.3 本章小结

5.3 本章小结

本章通过对随机采集的1 800篇涉及经济、教育、文学、心理四个学科类别的网页进行人工自动标引、人工打分、词频统计,并进行统计数据的分析,得出网页内容主题与网页题名、文章标题、第一段首句、第一段尾句、第二段首句、第二段尾句、首段、尾段、其他段以及html标记等12个标引源的关系,分析中文网页的不同部位的主题表达能力,并为之设计加权标引时的适当权值,以便为本书的后续章节提供位置权重方案[1]。由于采用人工标引及人工打分,人为因素占一定比重,如果标引不当,偏差则更大。对此问题可以采用完善人工打分规则及计算机辅助标引等方法降低人为因素。