1
文献信息 检索教程  第2版
1.1.5.3 1.5.3 计算机检索的基本技术
1.5.3 计算机检索的基本技术

1.布尔逻辑检索

布尔逻辑检索,是指采用布尔逻辑表达式来表达用户检索要求,并通过一定的算法和实现手段进行检索的过程。

利用布尔逻辑运算符进行检索词或代码的逻辑组配,是现代信息检索系统中最常用一种方法。常用的布尔逻辑运算符有三种,分别是逻辑或“OR”、逻辑与“AND”、逻辑非“NOT”。用这些逻辑运算符将检索词组配构成检索提问式,计算机将根据提问与系统中的记录进行匹配,当两者相符时则命中,并自动输出该文献记录。

(1)逻辑与“AND”运算符:逻辑与是用于组配不同的概念的检索词,是一种概念相交和限定关系的组配。

检索提问式:A AND B

其含义是:检出的信息中必须同时含有“A”和“B”两个检索词。其基本作用是对检索范围加以限定,逐步缩小检索范围,提高检索结果的查准率。

例如,检索式:计算机AND文献检索

检索结果:文献内容中既含有“计算机”又含有“文献检索”词的文献为命中记录。

(2)逻辑或“OR”运算符:逻辑或是用于组配具有同义或同族概念的检索词。

检索提问式:A OR B

其含义是数据库记录中任何一条记录,只要含有“A”或“B”中任何一个检索词即命中的文献。其基本作用是扩大检索范围,增加命中文献量,提高文献的查全率。

例如,检索式:计算机OR文献检索

计算结果:文献内容中含有“计算机”或含有“文献检索”以及两词都包含的文献为命中记录。

(3)逻辑非“NOT”运算符:“NOT”运算符是排除含有某些词的记录。

检索提问式:A NOT B

其含义是检出的记录中只能含有“NOT”算符前的检索词A,但不能同时含有“NOT”后的检索词B。其基本作用是缩小检索范围,但并不一定能提高文献命中的准确性,一般只起到减少文献输出量的作用。

例如,检索式:计算机NOT文献检索

检索结果:文献内容中含有“计算机”而不含有“文献检索”的文献为命中记录。应注意,“NOT”运算符有排除掉相关文献的可能,因此,在实际检索中应慎重使用。

检索中逻辑运算符使用是最频繁的,对逻辑运算符使用的技巧决定检索结果的满意程度。用布尔逻辑表达检索要求,除要掌握检索课题的相关因素外,还应在布尔逻辑运算符对检索结果的影响方面引起注意。另外,对同一个布尔逻辑提问式来说,不同的运算次序会有不同的检索结果。

(4)布尔逻辑算符的运算次序

用布尔逻辑算符组配检索词构成的检索提问式,逻辑算符AND、OR、NOT的运算次序,在不同的检索系统中有不同的规定。在有括号的情况下,括号内的逻辑运算先执行。在无括号的情况下,有下列几种处理顺序:

①NOT最先执行,AND其次执行,OR最后执行。

②AND最先执行,NOT其次执行,OR最后执行。

③OR最先执行,AND其次执行,NOT最后执行。

④按自然顺序,AND、OR、NOT谁在先就先执行谁。

作为检索人员,需要事先了解检索系统的规定,避免逻辑运算次序处理不当而造成错误的检索结果。因为,对同一个布尔逻辑提问式,不同的运算次序会有不同的检索结果。

2.词位检索

词位检索是以数据库原始记录中的检索词之间的特定位置关系为对象的运算,又称全文检索。词位检索是一种可以不依赖叙词表而直接使用自由词进行检索的一种技术。这种检索技术增强了选词的灵活性,采用具有限定检索词之间位置关系功能的位置逻辑符进行组配运算,可弥补布尔检索技术只是定性规定参加运算的检索词在检索中的出现规律满足检索逻辑即为命中结果,不考虑检索词词间关系是否符合需求,而易造成误检的不足。在不同的检索系统中,位置逻辑算符的种类和表达形式不完全相同,使用词位检索技术时,注意所利用系统的使用规则。这里以著名的Dialog系统常用的位置逻辑符为例,说明其检索技术。

(1)邻位检索

邻位检索技术中,常用的位置逻辑算符有(W)与(nW)、(N)与(nN)。

①(W)与(nW)算符

两词之间使用“W”,表示其相邻关系,即词与词之间不允许有其他词或字母插入,但允许有一空格或标点符号,且词序不能颠倒。即使用(W)算符连接的检索词,已构成一个固定的词组,显然(W)算符具有较强的严密性。例如,GAS(W)CHROMATOGRAPH表示检索结果为GASCHROMATOGRAPH和GAS-CHROMATOGRAPH形式的才为命中。(nW)是由(W)衍生而来。如在两词之间使用“nW”,表示两词之间可插入n(n=1,2,3,…)个词,但词序不能颠倒。它与(W)的唯一区别是,允许在两词之间插入n个词,因而,严密性略逊于(W)。例如,LASER(1W)PRINTER表示检索结果中具有“LASER PRINTER”“LASER COLOUR PRINTER”和“LASER AND PRINTER”形式的均为命中记录。

②(N)与(nN)算符

两词之间使用(N)也表示其相邻关系,两词之间不能插入任何词,但两词词序可以颠倒。例如,“WASTEWATER(N)TREATMENT”表示检索结果中具有“WASTEWATER TREATMENT”和“TREATMENT WASTEWATER”形式的均为命中记录。(nN)除具备(N)算符的功能外,不同之处是允许两词之间可插入n个词。

(2)子字段和同字段检索

使用邻位检索显然能使检索结果更为准确,但由于人们使用语言词汇的角度有差异,同一概念的表达可能会出现不同的形式,为提高查全率,可采用子字段检索技术。子字段包括文摘字段中的一个句子或标题字段的副标题等。子字段检索使用的位置逻辑算符是“S”。在两词之间使用“S”,表示两词必须同时出现在记录的同一子字段中,不限制它们在此子段中的相对次序,中间插入词的数量也不限。例如,“HIGH(W)STRENGTH(S)STEEL”表示只要在同一个句子中检索出含有“HIGH STRENGTH和STEEL”形式的均为命中记录。对子字段的检索结果进一步扩大,可采用同字段检索技术。同字段检索中使用的位置逻辑算符是“F”。在两词之间使用“F”,表示两词必须同时出现在同一个字段中,词序可以变化。例如,“AIR(W)POLLUTION(F)CONTROL”,表示只要在同一字段中检索出含有“AIR POLLUTION和CONTROL”形式的均为命中记录。

以上位置逻辑算符在检索提问式中可连用,使用顺序为(W)→(S)→(F),查准率高的顺序为W>S>F。

3.截词检索

截词检索是预防漏检提高查全率的一种常用检索技术,大多数系统都提供截词检索的功能。截词是指在检索词的合适位置进行截断,然后使用截词符进行处理,可节省输入的字符,又可达到较高的查全率。尤其在西文检索系统中,使用截词符处理自由词,对提高查全率的效果非常显著。在截词检索技术中,较常用的是后截词和中截词。按所截断的字符数分,有无限截词和有限截词两种。截词算符在不同的系统中有不同的表达形式,这里仍以Dialog系统使用的符号为例,说明其截词技术。

(1)后截词

后截词,从检索性质上,是满足前方一致的检索。

①有限后截词

主要用于词的单、复数,动词的词尾变化等。如book用book?处理,表示截一个词,可检索出含有book和books的记录;acid??表示截两个词,可检索出含有acid,acidic和acids的记录。由此可知,“?”为截词符,截几个词就在词根后加几个“?”。

②无限后截词

主要用于同根词。如solubilit用solub?处理,可检索出含有solubilize,solubilization,soluble等同根词的记录。由此可知,在词根后加一个“?”,表示无限截词符号。

(2)中截词

中截词也称屏蔽词。一般来说,中截词仅允许有限截词,主要用于英、美拼写不同的词和单复数拼写不同的词。如organi?ation可检索出含有organisation和organization的记录。由此可知,中截词使用的符号为“?”,即用“?”代替那个不同拼写的字符。

从以上各例可知,使用截词检索具有隐含的布尔逻辑或(OR)运算的功能,可简化检索过程。

4.字段限制检索

使用截词检索,简化了布尔检索中的逻辑或功能,并没有改善布尔检索的性质。使用位置检索,只能限制检索词之间的相对位置,不能完全确定检索词在数据库记录中出现的字段位置,特别在使用自由词进行全文检索时,需要用字段限制查找的范围,提高检索速度和命中率。常用的字段代码有标题(TI)、文摘(AB)、叙词或受控词(DE或CT)、标识词或自由词(ID或UT)、作者(AU)、语种(LA)、刊名(JN)、文献类型(DT)、年代(PY)等。这些限制符在不同的系统中有不同的表达形式和使用规则,在进行字段限制检索时,应参阅系统及有关数据库的使用说明,避免产生检索误差。

5.二次检索

二次检索是在当前检索结果范围内,再次提出检索条件进行查询,缩小检索范围。二次检索可以进行多次,使检索结果逐渐接近精确检索的目标。