1
文献信息检索与利用
1.5.5 第五节 文献信息检索效果评价

第五节 文献信息检索效果评价

1 检索效果的指标

检索效果关系到能否满足检索课题的要求,也关系到检索工作本身的成功与否。开展检索效果评价的目的,是为了找出影响检索效果的各种因素,从而改进检索工作,提高检索质量。衡量其效果指标,除了耗费人力、经费和时间以外,主要是查全率和查准率,及其对应的指标漏检率和误检率。

现以图形和计算数学式表示如下:

img11

检索结果示意图

假设:

Z=某检索工具中所存贮的文献总量,用粗黑线矩形表示;

g=有关某特定课题的文献量,用实线矩形表示;

j=检出的文献量,用虚线矩形表示;

q=检索出的切题文献量

i=未检出的切题文献量

W=检出的非切题文献量

从图中可见,g与j交叉部分(即q所示部分),为检索出的有关文献量,也即是切题文献量。q在g中所占的比例,即为查全率,就是检索出的相关文献占存贮的相关文献的比例。

图中,q在j中所占比例为查准率,即是检出的相关文献与检出文献总量之比,称之为查准率。

设:查全率为R(Recall ratio)

查准率为P(Precision ratio)

用数学式表示如下:

img12

从课题检索要求而言,最好把所有的有关文献信息全部检出,其查全率为100%,即等于1,而查出的文献全部均为相关文献,查准率也为100%。但是,实际上达不到100%,常常发生误差,即是漏检和误检。所谓漏检就是检索工具中存贮的有关课题文献,未被查出(见图中i部分),所谓误检即是检索有关文献时带出无关的文献信息(见图中W部分)。

设:漏检率为O(Omission ratio)

误检率为N(Noise ratio)

用数学式表示如下:

img13

如果漏检率(O)和误检率(N)均为零,则检索工具中与课题有关文献全部被检出,就意味查全、查准率都是100%,其结果最为理想。但是,由于检索过程受到多种因素的影响,致使查全、查准率达不到100%。

在检索实践活动中,查全率与查准率之间,存在着互逆关系。即是说查全率越高,查准率就可能越低。这是因为人们要查全有关文献,就可能放宽检索范围,于是在检索中带出较多不相关的文献(即误检的文献),则查准率因此降低。反之,查准率高,查全率就可能降低。这是因为人们要查准有关文献,提高其专指度,缩小范围,误检现象少了,但是,有些所需的文献漏检了,则查准率高了,误检率低了,漏检率高了,查全率却低了。总之,越全越不准、越准越不全。

目前,查全率、查准率用来表达检索效果是比较合理的指标。但是,还存在着一定的局限性。在检索前很少知道检索工具中存贮的相关文献究竟有多少,只能作以估计。如果估计了“工具”中存贮的全部相关文献对某课题有用,然而实际上并非如此。假设使用的检索工具是目录或题录性工具,仅从文献信息篇名上,很难判断是否是切题文献或相关文献,还必须查到原文,进行核对。

从查全率、查准率的表达数学式,可见其推断的文献检索的效果并不是十全十美的,尤其是手工检索工具,查全、查准率更低些。就一般而言,检索效果较好的,检全率达到60%~70%,检准率为40%~50%时,就基本上满足了检索的要求。

不同的课题,对文献检索相关性的要求不同。例如:申请专利、公布发现、撰写综述、著书立说、成果鉴定等,对其查全率要求很高、查准率低些也不要紧;又如:为了研究和解决某个具体问题,对其查准率要求很高,查全率可以低些;有的课题,只需浏览一些新的重要文献,不需全部有关文献,则对查准率要求高、查全率低些也可以;再如:针对某项科研课题而言,随着时间、地点、阶段的不同,对检索文献信息的相关性要求也会有很大的差异。课题伊始,确定本项研究计划时,对查全率要求很高,甚而不能漏掉任何一个重复项的信息,而在进行中,这项研究,为了核实或补充某个问题,有时又需要提高查准率,本项课题研究结束时,对成果进行鉴定,又必须提高查全率,查准率下降一些也可以。

总之,我们所说的查全率、查准率都是相对的,而不是绝对的,故而它们对检索效果的描述也只能是近似的。

2 影响检索效果的因素

影响检索效果的因素很多,有客观因素,也有主观因素。现分述如下:

2.1 检索工具质量的高低起决定性作用

检索工具是文献信息检索的最基本的物质条件,它的质量差,绝不能收到良好的检索效果。一般说来,衡量检索工具的优劣有“全”、“快”、“便”、“专”的四条标准。

(1)全

所谓“全”是指检索工具的内容,包容万千,十分丰富。检索工具编辑单位,广取博收,全面系统地汇集有关学科或专业的各种类型的文献信息,有序地存贮在检索工具之中,提供了极为全面的文献线索,从而有效地提高其文献查全率。

(2)快

所谓“快”是指检索工具出版周期短,最新信息报道快。它能及时系统地收集最新文献信息,在其工具中迅速反映有关学科或专业的最新研究成果。如有的检索工具报道一周内最新发表的文献信息,它为用户及时提供了最新科技文献信息。

(3)便

所谓“便”即是方便,是检索工具必备的条件。一般指检索工具编有多种索引,为检索者提供多种检索途径,使他们很方便地利用这些辅助索引,可以从各个不同的角度,很便捷地查寻到有关所需的文献。

(4)专

所谓“专”是指文献信息标识具有较高的专指深度。即是说,检索工具编者在文献信息存贮过程中,选准专指性较高的已规范化处理的检索词语,准确而科学地描述文献的主题概念,不断提高其文献标引的深度,从而有效地提高文献信息的查准率。

总之,检索工具的优劣与查寻成败息息相关。除了达到上述四条标准,还需在编辑检索工具时进行科学标引,遵守标引的规范和规则,精确地表达文献主题,为检索者、用户的查全率、查准率提供优质工具。

2.2 检索者、标引人员要使用统一语言

检索者和文献标引人员(或检索工具)使用一致性语言问题,也是影响检索效果的重要因素。因为文献信息检索的实质是将提问的标识与文献标识进行大同小异的比较过程。为了达到二者匹配,检索者使用的语言必须与文献标识语言相一致,也就是说,必须与检索工具中所采用的语言相一致,否则,漏检率增大,达不到预期的检索效果。

2.3 检索者检索技术水平的问题

无论手工检索、机械检索、计算机检索或者网络检索,都是由检索者亲自操作而完成的。可见人的主观因素,对检索效果影响很大,甚而起着关键性作用。由于文献信息检索工作专业性很强,如果检索人员的专业知识欠缺,就会对所检索的课题分析研究有误,提出不够明确的要求,提问标识可能出现不能完全反映课题的要求,不是范围过宽,就是过窄。另外,检索者对检索工具不熟悉,不了解检索工具的收录范围及提供的检索途径,检索方法又掌握不好,检索时缺乏足够的灵活性和坚韧性等,都会影响检索效果。

3 提高检索效果的措施

提高检索效果就是要提高查全、查准率,降低它的漏检、误检率。消除上述影响检索效果的因素,提出以下措施:

3.1 提高检索工具的编辑质量

检索工具编者,必须力争做到收录有关的全部文献信息,尽量减少遗漏。著录内容要详细、正确,要标准化。索引系统完善、适用。标引用词,规范严密,控制词量,前后一致,准确表达文献主题概念。标引要有一定深度,参照系统要完善。及时集纳最新文献信息,不断提高编辑出版速度。

3.2 准确使用检索语言

用户采用检索提问的语言必须和检索工具中的检索标识语言相一致,才会命中所需文献信息,查获有关文献。为此,用户所用的检索语言应能正确表达信息需求。如果检索工具使用了分类语言,那么用户就得事先从分类表中选准分类号;如果检索工具使用的是主词语言,包括标题词、元词、关键词或叙词语言,检索者就必须事先选好有关的主题词,并按概念组配规则合理组配,如要提高查全率,就得采用泛指性强的检索语言,如采用上位类分类号,上位主题词以及相关主题词;如要提高查准率,就得采用专指性强的检索语言,如采用下位类分类号,或下位主题词以及经组配后的专指检索词。

3.3 合理选用检索工具及其各种索引

选用检索工具时,首先要选质量高的,同时还要选适合课题内容的检索工具。并根据检索工具所提供的各种途径,根据自己掌握的课题所需文献的外表特征和内容特征,选用相应索引进行检索,迅速获得切题的文献线索。

3.4 提高检索者自身的检索水平

检索效果与检索者的知识水平、业务能力、工作经验,特别是检索技能、技巧的熟练程度和外语水平有着密切的关系。如果检索者知识、业务水平较高,又能够熟练地使用检索工具,同时了解到检索工具的收录范围,有较高的查检技能,必将收到事半功倍的检索效果。因此,检索者必须不断提高业务、知识水平,不断提高检索技能,才能提高检索效果。

3.5 制订最优的检索策略,灵活运用各种检索方法

例如:尽量全面准确地表达检索要求,合理选用检索工具,根据检索课题的要求,运用适当的选词方法把检索词选全选准;然后尽量把检索式结构制订完美些,能全面准确地表达检索要求;检索过程中灵活运用各种有效的方法和途径;根据用户的不同要求及时调整查全率和查准率等制订最优检索策略。