信息检索过程是一个复杂的过程,从表象上看,信息检索过程是信息检索提问式与信息集合标识之间的匹配运算,但实际的机理问题却要复杂得多,它不仅涉及以用户认知结构为基础的信息需求唤醒、提问表达与转换、检索标识的形成和检索结构的相关性与适用性判断,而且还涉及对检出信息的理解与吸收利用。信息检索过程是系列过程组成的综合体系,其各个阶段和环节都可能产生不确定性。信息检索的不确定性是指由于忽略次要因素、相关性不确切或不完全、知识不成熟、证据本身可能错误,或是仅注重对物的研究而对信息传递主体与信息接收客体的关注不够等原因而产生的检索过程的模糊认识。信息检索过程中不确定性的产生机制已经成为信息检索研究中的重要课题。
信息检索的不确定性是由于人们对信息和信息检索过程认识的类属不清、状态不明造成的,用户与文献作者之间知识结构的差距是导致信息检索失败的主要原因。因而作为情报系统来说,必须能够响应用户带有一定缺陷的知识结构,反映和支持用户在信息需求表达中所利用的领域知识和语言知识。
有关信息检索的不确定性研究是将检索过程建立在一种理想化的假设之上,即从需求唤醒到提出问题再到情报吸收、利用的一系列检索过程能在用户与系统的交互作用中顺利进行。
3.4.1 文献信息检索效果判断环节
计算机检索时,首先要由用户向计算机信息检索系统提交查询表达式,系统经过查询匹配后把检索结果输出给用户,再由用户进行判断是否满足自己的信息需求。可见计算机检索的相关性判断有两个环节:一是系统相关性判断,即系统自动对相关度进行计算,并输出检索结果;二是用户相关性判断,即用户在选择系统、拟定检索表达式及在系统命中的结果中进行取舍时所做出的主观判断。
1.系统相关性
系统相关性指的是文档标识与用户提问之间的相符程度,其量化指标为相关度。检索系统的输出结果一般按照相关度从大到小排列。相关度的算法因系统而异,是决定系统检索性能优劣的主要因素。各检索系统评判结果是否相关及相关程度的方法虽有不同,但归纳起来主要有词频方法、位置方法、引用率方法、大众单击率方法、分类或聚类方法等。
2.用户相关性
用户相关性是一个灵活、相对的概念,它表示的不是检索出的文档与用户检索表达式之间的一致性,它衡量的是文档与用户需求的一致性。当用户不知道某些相关信息的存在或对检索课题不甚了解从而不能形成完整的信息需求表达时,某些与用户的信息需求相符的文档却可能与检索提问不符。反之,检出的文档与检索提问相符却不一定能满足用户的需求。系统相关不一定意味着用户相关。用户相关性由用户本人来判断,它具有强烈的即时性和明显的个性化特征:用户对于文献相关与否的判断会因条件、时间的不同而有所变化,还会因用户知识背景、知识结构、兴趣爱好不同而有所不同。
3.4.2信息检索的效果评价方法
检索效果是指检索结果的有效程度,反映了检索系统的检索性能和检索能力。评价检索效果的目的是为了准确地掌握检索系统的各种性能和水平,找出影响检索效果的各种因素,为检索策略的改进调整提供依据,才能够快速、全面、准确地查找出所需要的文献信息。对计算机检索系统来说,通过对检索效果的评价,以便改进系统的检索性能,提高系统的服务质量。任何检索系统都有存储和检索两个功能。就存储而言,保证某一学科或专业领域信息收集全面并不十分困难;而对于检索来说,从系统中输出全部相关信息,排除所有无关信息则比较难以实现。通常情况下,在查找信息时,不可避免地会带来一些无关信息,而漏掉一部分相关信息。在网络检索系统中,这种情况尤为突出。其主要原因是系统相关性匹配算法的机械性、用户提问的模糊性及其与信息需求的偏差等。
根据F.W.Lancaster的阐述,判定一个检索系统的优劣,主要从质量、费用和时间三个方面来衡量。因此,对计算机信息检索的效果评价也应该从这三个方面进行考量。质量标准主要通过查全率与查准率进行评价;费用标准即检索费用,是指用户为检索课题所投入的费用;时间标准是指花费的时间,包括检索准备时间、检索过程时间、获取文献时间等。在这三个方面中,查全率和查准率是评价检索效果的主要指标,也是用户在实际检索时最关心的问题。下面对目前采用最为普遍的检索效果量化评价指标——查全率、查准率、漏检率、误检率进行简单介绍。通常使用2×2表格对这4个指标进行描述,如表3.2所示。

1.检索结果评价指标
查全率是对所需信息被检出程度的量度,用来表示信息系统能满足用户需求的完备程度;查准率是衡量信息系统拒绝非相关信息的能力的量度;查全率的误差即是漏检率;查准率的误差即是误检率。其数学表达式分别如下。
查全率(R)=被检出相关文献数/系统中的相关文献×100%=(a/(a+c))×100%漏检率(O)=未检出相关文献数/系统中的相关文献×100%=(c/(a+c))×100%查准率(P)=被检出相关文献数/被检出文献总数×100%=(a/(a+b))×100%误检率(N)=被检出不相关文献数/被检出文献总数×100%=(b/(a+b))×100%查全率和查准率是评价检索效果的两个重要指标,查全率、查准率越高,说明检索效果越好,但在实际检索中,查全率和查准率是不可能同时达到100%的。克莱夫登通过克兰菲尔德实验证明,在同一个信息检索中,当查全率和查准率达到一定的阈值,即查全率为60%~70%、查准率为40%~50%后,二者呈互逆关系,即查全率与查准率在某种程度上成反比例关系,一方的提高往往导致另一方的降低,偏重哪一方都是不妥当的。在检索实践中,需要根据课题的具体要求,合理调节查全率和查准率,找到最优平衡点,保证适度的查准率和查全率。因此,在检索过程中,可以从以下几点考虑。
(1)作为检索人员,要确定自己是对查全率更关心,还是对查准率更感兴趣。据此选择不同的检索策略。
(2)了解检索系统和数据库的特点和规模。对专业性强、规模小的数据库,要注意提高查全率;对数据量较大的系统,如网络搜索引擎,由于其结果输出量比较大,保证查准率则显得更为重要。
2.调整查全率和查准率的方法
影响查全率的因素从文献信息存储来看主要有:数据库收录文献不全;索引词汇缺乏控制和专指性;词表结构不完整;词间关系模糊或不准确;标引不详;标引前后不一致;标引人员遗漏了原文的重要概念或用词不恰当等。从信息检索来看主要有:检索策略过于简单;选词和进行逻辑组配不当;检索途径和方法太少;检索人员业务不熟悉和缺乏耐心;检索系统不具备截词功能和反馈功能;检索时不能全面地描述检索要求等。
提高查全率,即进行扩检,可以按照如下方法调整检索提问式。
(1)选全同义词并以“or”的方式与原词连接后加入到检索式中。
(2)降低检索词的专指度,从词表或检出的文献中选择一些上位词或相关词。
(3)采用分类号进行检索。
(4)删除某个不甚重要的概念组面,减少“and”运算。
(5)取消某些过严的限制符,如字段限制符等。
(6)调整位置算符。
影响查准率的因素从文献信息存储来看主要有:索引词不能准确描述信息主题和检索要求;组配规则不严密;标引过于详尽;检索系统不具备逻辑“非”功能和反馈功能;检索式中允许容纳的词数量有限。从信息检索来看主要有:选词及词间关系不正确;组配错误;检索时所用检索词(或检索式)专指度不够,检索面宽于检索要求;截词部位不当;检索式中使用逻辑“或”不当等。
若要提高查准率,即进行缩检,可按如下方法调整检索提问式。
(1)提高检索词的专指度,增加或换用下位词和专指性较强的自由词。
(2)增加概念组面,用“and”连接一些进一步限定主题概念的相关检索项。
(3)限制检索词出现的可检字段,如限定在篇名字段和主题字段中进行检索等。
(4)利用文献的外表特征限制,如文献类型、出版年代、语种、作者等。
(5)用逻辑非“not”来排除一些无关的检索项。
(6)调整位置算符。
3.其他评价指标
(1)用户负担:即检索工具的用户友好性及用户在使用该工具时的方便和易用程度。
(2)新颖率:从检索系统中检索出来的对用户而言含有新颖信息的文献数量与文档中总相关文献数之比。
(3)覆盖率:在某一特定时间里,从某一检索系统中检索到的涉及特定主题领域的所有文献数与该主题领域相关的实有文献总数之比。
(4)检索结果的满意度:包括检索结果相关命中数、重复链接数、死链接等。
(5)响应时间:即完成一个检索要求所用的时间。
(6)相关性排序:即将输出结果根据与检索词的相关度进行排序。
(7)输出数量选择:即限定或改变输出量。
(8)输出方式:标题的有无、类目位置、网页文本大小等。
(9)检索界面:用户界面的易用性情况,包括是否含有检索说明文档、是否有帮助文件、是否有查询举例等。

