全屏显示专题章节

除了训练样本的数量影响外，训练样本本身的先期分类结果的正确性也会对分类造成一定的影响。因为前期的分类一般是人工进行的，这必然会带有一定的人为因素和个人喜好在里面，而且不同的人会有不同的理解。为此，我们对本书的训练文本进行了随机抽查，随机抽取了30篇训练文本进行仔细审核，结果如11－1表所示。

从表11－1可以看出，存在多类（占10%左右）和错分（占3．33%）的情况，这势必会对分类训练的结果造成一定的影响（当然一些建设比较规范的语料库中这一情况会好得多）。通过对自动分类结果进行分析，我们也发现有近15%左右的文本存在多类的情况，也会对分类效果产生一定的影响。

另外，训练样本的文本长度、是否有摘要、文献的类型（即它是学术论文还是网页还是新闻等）等也会对分类产生一定的影响，因篇幅所限，本书对此没有进行相关验证。但有一点可以证实，通过和实验室其他人员所进行的研究结果相比，有没有文摘对分类效果确实存在着影响。