1
文本自动标引与自动分类研究
1.6.3.1.4 11.1.4 训练样本先期分类情况的影响

11.1.4 训练样本先期分类情况的影响

除了训练样本的数量影响外,训练样本本身的先期分类结果的正确性也会对分类造成一定的影响。因为前期的分类一般是人工进行的,这必然会带有一定的人为因素和个人喜好在里面,而且不同的人会有不同的理解。为此,我们对本书的训练文本进行了随机抽查,随机抽取了30篇训练文本进行仔细审核,结果如11-1表所示。

表11-1 训练样本的分类合理性分析

img142

从表11-1可以看出,存在多类(占10%左右)和错分(占3.33%)的情况,这势必会对分类训练的结果造成一定的影响(当然一些建设比较规范的语料库中这一情况会好得多)。通过对自动分类结果进行分析,我们也发现有近15%左右的文本存在多类的情况,也会对分类效果产生一定的影响。

另外,训练样本的文本长度、是否有摘要、文献的类型(即它是学术论文还是网页还是新闻等)等也会对分类产生一定的影响,因篇幅所限,本书对此没有进行相关验证。但有一点可以证实,通过和实验室其他人员所进行的研究结果相比,有没有文摘对分类效果确实存在着影响。