1
文献信息 检索教程  第2版
1.1.6.2 1.6.2 文献检索效果评价
1.6.2 文献检索效果评价

1.检索效果的评价指标

一个理想的文献检索系统应当能够以方便的形式提供检索者所需要的全部文献。对检索效果进行评价的目的就是找出影响检索系统性能的各种因素,以便有效地满足检索者的需要。为此,可采用两种方式来改善系统的性能,首先只提供检索者所需要的文献,其次是抑制检索者所不需要的文献。这里需要解决查全率和查准率的问题,并以此作为评价的标准。查全率与查准率是衡量检索效率的标准,尽管是针对计算机检索系统的,但对手工检索同样具有一定的指导意义。目前,确定查全率和查准率的方法很多。

查全率和查准率是判定检索效果的主要标准,两者结合起来,描述了系统的检索成功率。

(1)查全率

查全率是指系统在进行某一检索时,检出的相关文献量与系统文献库中相关文献总量的比率,它反映该系统文献库中实有的相关文献量在多大程度上被检索出来。

查全率=[检出相关文献量/文献库内相关文献总量]×100%

例如,要利用某个检索系统查某课题,假设在该系统文献库中共有相关文献为40篇,而只检索出30篇,那么查全率就等于75%。

(2)查准率

查准率是指系统在进行某一检索时,检出的相关文献量与检出文献总量的比率,反映每次从该系统文献库中实际检出的全部文献中有多少是相关的。

查准率=[检出相关文献量/检出文献总量]×100%

如果检出的文献总篇数为50篇,经审查确定其中与项目相关的只有40篇,另外10篇与该课题无关,那么,这次检索的查准率就等于80%。显然,查准率是用来描述系统拒绝不相关文献的能力,有人也称查准率为“相关率”。

2.影响检索效果的因素

查全率与查准率是评价检索效果的两项重要指标。查全率和查准率与文献的存储与信息检索两个方面是直接相关的,也就是说,与系统的收录范围、索引语言、标引工作和检索工作等有着非常密切的关系。

(1)影响查全率的因素:检索时检索策略过于简单;选词和进行逻辑组配不当;检索途径和方法太少;检索人员业务不熟练和缺乏耐心;检索系统不具备截词功能和反馈功能,检索时不能全面地描述检索要求等。

(2)影响查准率的因素:索引词不能准确描述文献主题和检索要求;组配规则不严密;选词及词间关系不正确;标引过于详尽;组配错误。

(3)其他

检索者的知识水平、业务能力、工作经验,特别是检索技术的熟练程度和外语水平也是影响检索效果的主要因素。

检索时所用检索词(或检索式)专指度不够,检索面宽于检索要求;检索系统不具备逻辑“非”功能和反馈功能;检索式中允许容纳的词数量有限;截词部位不当,检索式中使用逻辑“或”不当等。

实际上,影响检索效果的因素是非常复杂的。实验表明,查全率与查准率是呈反比关系的。要想做到查全,势必要对检索范围和限制逐步放宽,则结果是会把很多不相关的文献也带进来,影响了查准率。企图使查全率和查准率都同时提高并不是很容易。强调一方面,忽视另一方面,也是不妥当的。应当根据具体课题的要求,合理调节查全率和查准率,保证检索效果。

3.提高检索效果的措施

(1)提高用户信息素养

用户信息素养包括培养用户信息检索知识与能力、信息敏感度、信息判断能力、信息辨析能力、较好的思维和分析能力、较好的外语水平、良好的职业道德和责任心等。

(2)选择好的检索工具和系统

检索工具和系统的收录范围、索引语言、标引深度与准确性、提供的检索途径、检索方法等是影响检索效果的重要方面。用户检索前应了解其特点与性能。

(3)优选检索词

精选检索词,是提高检索效果的重要手段。检索课题的概念,检索前应当分解和转换为检索系统认可的规范词,列出其同义词、近义词、广义词、狭义词、分类号,化学物质还应找出其分子式、登记号、别名、俗名和商品名等。避免使用那些意义泛指的词,尽量使用专指性强的词或短语,要小心和避免使用一词多义的词,避免使用错别字,适当使用截词运算。

(4)合理调整查全率和查准率

不同的检索课题对文献信息的要求不同,用户应根据课题的需要,适当调整查全率和查准率,优化检索策略,以达到最佳检索效果。提高查全率时,调整检索式的主要方法有:降低检索词的专指度,从词表或检出文献中选一些上位词或相关词;减少AND组配,如删除某个不甚重要的概念(检索词);多用OR组配,如选同义词、近义词等并以“OR”方式加入检索式中;截词检索;放宽限制运算,如取消字段限制符等。提高查准率时,调整检索式的主要方法有:提高检索词的专指度,增加或采用下位词和专指性较强的检索词;增加AND组配,用AND连接一些进一步限定主题概念的相关检索项;减少OR组配;用逻辑非NOT来排除一些无关的检索项;加权检索;利用文献的外表特征进行限制,如限制文献类型、出版年代、语种、作者等;限制检索词出现的可检字段,如限定在篇名、字段和叙词字段中进行检索;使用位置算符进行限制。

4.检索效率的评价

在检索中最理想的是查全率和查准率都达到100%,就是数据库中收录的全部相关文献都被检索出来,而且检索出来的文献全部都是相关文献。但事实上,检索中有许多因素使这个指标很难达到,总存在一定的误差。那么就出现了两个评价误差的指标——漏检率和误检率。

在评价工作中,最常用的是查全率和查准率,而且应同时使用,否则就难以反映检索系统的功能及检索结果的效率:查准率和查全率结合起来,描述了系统的检索成功率、查全率和查准率之间有着互逆的关系,就是说查全率提高,查准率就下降,反之亦然。在计算机检索中,一般认为查准率为60%~70%、查全率为40%~60%是较为理想的。