1
文献信息检索与利用
1.15.2 第二节 计算机信息检索的定义

第二节 计算机信息检索的定义

1 什么是信息检索

信息检索(Information Retrieval),是指将信息按一定的方式组织和存储起来,并根据信息用户的需要找出有关的信息过程,所以它的全称应该叫“信息的存储与检索(Information Storage and Retrieval),这是广义的信息检索。但通常我们讲信息检索则仅指该过程的后半部分,是狭义的信息检索,即从信息数据库中找出所需要的信息的过程,相当于人们通常所说的信息查找(Information Search)。

2 什么是计算机信息检索

计算机信息检索就是指人们在计算机或计算机检索网络的终端机上,使用特定的检索指令、检索词和检索策略,从计算机检索系统的数据库中检索出所需信息,再由终端设备显示或打印的过程。它是以计算机技术为手段,通过光盘、联机、网络等现代检索方式进行信息检索的方法。计算机信息检索的成功运用,使得耗费时间、精力的手工检索作业,变成了快速、高效的自动化过程,既克服了空间上的障碍和时间上的限制,又大大提高了信息的可获得性。与手工检索一样,计算机信息检索应作为未来科技人员的一项基本功,这一能力的训练和培养对科技人员适应未来社会和跨世纪科研都极其重要,一个善于从电子信息系统中获取信息的科研人员,必定比不具备这一能力的人有更多的成功机会。

计算机信息检索广义上讲包括信息的存储和检索两方面:

⑴信息的存储。即从信息源中筛选出合适的信息,对其内容进行概念分析,用系统规定语言进行标引,形成信息的特征标识,再进行整理和排序。

⑵信息的检索。检索人员对检索课题进行分析,明确检索范围,弄清主题概念,然后用系统语言表示主题概念,形成检索标识及检索策略,输入到计算机中进行查找,检索结果可以联机或脱机打印输出。

⑶计算机信息检索的特点

①信息资源丰富

目前的数据库已涉及各个学科及生活的各个领域,一个数据库就收集有数十万、数百万乃至上千万条记录,而且还可以利用终端与若干个联机系统进行联机。

②检索迅速

联机系统的主机运行速度很快,在含有数百万条的数据库中,一个检索语句几秒内就可以得到响应,检索一般的课题仅需几分钟或十几分钟。

③检索点多

联机系统对数据库记录的许多字段都作了索引,有的联机系统对每个字段都作了索引。因此,这些索引字段都可以作为检索点。尤其是篇名、文摘、关键词字段采用了文中自由词查找的方法,更是工具书无法比拟的。

④使用方便

它主要包含两方面的意义:一是检索系统用户界面友好,检索指令和检索方法便于掌握;二是连通主机的过程很方便,只要有一台微机和一条电话线就可以建立终端。

在当今信息社会中,计算机检索起了十分巨大的作用,信息服务业已成为现代社会经济发展的重要组成部分和社会的主要活动,计算机检索作为利用全球信息资源的一种先进手段,其管理和决策服务的功能已被越来越多的人所认识利用,与手工检索相比,它具有以下优点:

a.查找迅速、反馈及时、资源共享。由于联机系统中的中央主机采用分时技术,系统对用户指令的响应通常只需几秒钟,检索反馈极快,可根据系统的反馈,随时调节检索策略,网络检索真正做到了世界信息资源共享,用户可在设置终端的办公室或家里通过互联网与各种文献数据库中心联系,获得所需要的文献资料。

b.检索全面、主题广泛、实时性强。联机检索通常能提供数十到数百个数据库的检索,设计主题十分广泛,几乎覆盖了人类社会生活的各个领域。互联网上每时每刻都有新的信息出现,可随时查找和获得最新信息。在联机检索系统中,有许多数据库的更新周期是数周,对金融、商业、市场、科研和社会动态方面的数据库则实时更新其内容,可满足用户对各种信息的需求。这是手工检索无法做到的。

c.使用方便、功能完善、组配灵活。计算机信息检索采用布尔(Boolean)逻辑运算,各类检索词之间可以灵活组配。还可对检索之间的位置关系和短语进行全文查找。满足多途径的检索要求。使用网络的Web浏览器,通过搜索引擎,快速查找互联网上的各种信息,使用极为方便。

但计算机信息检索也有一些不足,相对于手工检索来说,主要表现在:

a.数据库回溯检索时间短,一般只提供1970年以后的文献。

b.系统的可靠性尚未能持续,各种设备如出现故障将造成检索失败,带来时间和经济上的损失。

c.检索费用高,要求检索人员有较宽的知识面、较高的外语水平及对不同数据库的了解。

d.检索的适应性有时较差,当用户有一个明确的信息需求时,利用计算机检索能获得较高的检索质量和效果,但在需求不明朗或含糊不清时,检索效果常常不理想,尤其在互联网上检索时,有时受网络速度和其他原因的影响,检索质量不高。

手工文献检索的优缺点差不多与计算机情报检索的相反。手工文献检索的优点是检索时间和检索范围都不受限制,且费用低廉。但是手工文献检索耗时多、效率低、检索入口少,因此查找效果往往不如计算机情报检索得好。在检索实践中,我们通常把计算机检索和手工文献检索两种方法结合起来使用,以充分发挥它们的优点。例如,可以从手工文献检索入手,查得一些相关的文献,从中取得合适的分类号、主题词、主要研究人员及其所在单位名称等信息,再利用这些信息通过计算机情报检索扩大查找,这样做往往可以收到事半功倍的效果。

4 计算机信息检索的分类

计算机信息检索的类型可以通过检索的内容、信息出版的时间和检索工作的方式来加以划分。

4.1 根据计算机信息检索的内容划分

(1)数据检索(Numerical Retrieval)

数据检索以查找某一数据为目的,利用各类检索系统查出包含在信息中的某一数据、参数、公式、图表或化学分子式等的检索。其检索结果为数据。例如,从统计数据库中检索“中国农村人口平均增长率”、“母亲河—黄河全长是多少?”。

(2)事实检索(Fact Retrieval)

事实检索以事实为检索对象,是从存储事实信息的系统中查找出指定的事实的行为。从广义上讲,事实也是一种全文,只是内容特殊、比较简短的全文。例如,什么是生态营养学?它的发展动向如何?使用中国大百科全书数据库就能获取此类信息,其检索结果为事实。又例如,从《中国科技名人数据库》中查询某一位科学家或作家的生平与业绩。

(3)文献检索(Document Retrieval)

其检索结果是能够满足用户需求的文献线索或文献全文,例如,从《中国学位论文数据库》中检索硕、博士学位论文。

4.2 按被检索文献出版的时间划分

(1)定题信息检索(Selective Dissemination ofInformation)

这是一种把用户提问预先存储在计算机的存储设备中,按提问要求定期地检索已存储在计算机中的最新文献信息,并把检索结果分发给用户的一种方法,使用该种方法用户无需经常进行联机检索,就能定期地获取所需的最新文献信息。

(2)回溯性信息检索(Retrospective Search)

这是根据用户提问提供某一段时间范围内的文献信息的检索方法。通常在着手课题鉴定和专利查新时,要使用到回溯性信息检索方法。

4.3 按计算机检索工作的方式划分

(1)脱机检索系统(OffLine Retrieval System)

这是一种计算机批处理的信息检索系统。用户不直接与计算机发生联系。SDI服务就是利用脱机检索系统的一种信息提供方式,这种方式适用于接受批处理,而检索结果不必立刻提供给用户。

(2)联机检索系统(On Line Retrieval System)

这是一种用户以联机会话方式直接访问系统及其数据库的信息检索系统。在联机状态下,用户可以一边与计算机对话,—边改变提问方式。联机检索系统由于不受时空限制,尤其在网络环境下允许用户以联机会话方式直接访问跨洋越海的计算机远程系统及数据库的最新信息。因此,它是一种使用最便利、最广泛,也是最受欢迎的计算机信息检索系统。

5 计算机信息检索的必备条件

5.1 物质条件

从检索的过程来看,计算机检索的物质条件由数据库、通信系统和检索终端三部分组成。

数据库是计算机信息检索的基本操作对象。近年来,数据库的发展十分迅速。全世界数据库的数量每年递增10%左右。数据库的专业覆盖面几乎涉及所有的科技门类。仅以DIAL-OG国际联机检索系统为例,1979年它拥有数据库109个,总记录数3500万条,到2000年,它已拥有约500个数据库,约3亿条记录,目前拥有的数据库已经超过600个。另外,近年以光盘和网络形式出版的数据库也越来越多。目前几乎所有常用的大型数据库都有光盘形式出版。

通信系统的作用对现代计算机信息检索系统来说变得越来越重要。除了单用户版的光盘检索系统以外,现在几乎所有的计算机信息检索系统都要求通信系统的支持。从通信手段来说,原来多数国际联机系统采用的TELENET公共数据网连接,现在已发展成光缆、卫星通信等各种手段并举,通信速度有了极大的提高。

检索终端包括微型计算机和打印机等。用于检索的微机应具有较高的运算速度和较强的逻辑运算功能,有较大的外存空间,有连接计算机网络的功能,另外通常还应提供多语种信息处理功能。

5.2 人员条件

计算机信息检索的效果与检索人员的素质有着密切的关系。人员的素质主要包括:

(1)对课题的了解程度;

(2)对检索系统(包含计算机和数据库的掌握程度);

(3)对语言(包含检索语言、检索策略调整以及外语水平的掌握程度)。

提高这三方面的素质不仅有赖于课程学习,更主要的是要靠实践。只有通过不断的实践、比较和总结,才能达到运用自如的地步。