1
文献信息检索与利用
1.15.1 第一节 计算机信息检索概况

第一节 计算机信息检索概况

1 计算机信息检索发展概述

计算机检索始于1954年,当时美国海军机械中心图书馆在IBM-701型计算机上建立了世界上第一个名为NOTS的计算机检索系统。从此信息检索计算机化开始飞速发展。

1.1 计算机检索发展阶段

计算机检索在世界范围内的发展大致经历了以下4个阶段:

1954—1964年脱机信息检索阶段;

又称单机检索系统。它是利用单台计算机的输出输入装置进行检索的系统,用磁带作为存储介质,采用连续的顺序读取方式,适合大批量的定题信息检索。因此该系统也叫成批检索或定题服务。这种检索系统是以脱机批处理方式进行工作的,没有远程终端设备,没有通信网络。在脱机检索过程中,一般由专职检索人员定期处理批量的用户需求提问,然后把处理结果分发给用户。系统无法提供用户与作业的交互作用,用户不能随机控制自己的检索过程,数据库也无法共享。虽然脱机检索比手工检索方便、快捷,但用户不能与系统进行实时“对话”,不能及时修改“检索提问式”,并且检索结果也不能立即得到。因此,人们开始研制更便利的、能实时对话的联机检索系统。

1965~1972年联机信息检索阶段;

1965年,美国系统发展公司(SDC-SystemDevelopment Company)进行全美范围的联机网络试验,研制ORBIT联机信息检索软件。同年,洛克希德公司(Lockheed)也为美国航空航天局NASA研制出RECON联机信息检索软件。次年,RECON软件发展成为Dialog联机检索软件,并于1969年投入运行。20世纪70年代以来,计算机技术、通讯技术和数据库技术相结合,形成了一个信息服务现代化体系。它通过通讯线路或通讯卫星把分散的若干个计算机信息检索系统连接成网,网上所有的计算机可以互相通信,共享网上信息资源。数据生产方式已走向社会化的大规模生产。计算机网络进入了商业应用阶段,共用电话网、电传网、公共数据通信网,为信息检索提供了通信网络。1971年,Dialog检索软件向全美提供服务,标志着联机信息检索技术走向成熟。ORBIT与Dialog软件,能够让用户直接同所检索的数据库进行会话式交流,具有分时的操作能力,因此多个独立的远程终端用户能同时与主机进行实时“对话”,从而使联机检索得到广泛使用并逐步进入世界范围。它的特点在于:用户使用计算机终端设备通过通信线路与系统直接人机对话,即具有交互性。系统对用户的指令能及时做出响应,即具有及时性。用户可输入提问表达式并马上得到答案,还可一面与计算机对话,一面修改提问方式直到得到满意的结果。多个用户可同时使用一个联机检索系统,即具有同时性。此外,它还具有独立性。也就是说,用户可通过各自的终端或联网微机进行操作,不用担心发生互相干扰。世界各大信息检索系统纷纷进入网络,在世界范围内提供服务。联机检索超越了国界,开始了国际联机信息检索的新阶段。

1973~1985年光盘信息检索阶段;

联机检索对主机的要求十分高,而当时计算机的发展还很有限,计算机的性能、价格远远不能与现在相比,因此联机发展受到了一定的制约。1978年,荷兰飞利浦(Philips)公司研制出第一代光盘即数字式光盘,其后,经过多家公司的开发与改进,光盘技术在20世纪80年代中期已完全成熟。光盘是一种用激光记录和读取信息的盘片,具有信息存取密度高、容量大、读取速度快、信息类型多、保存时间长、成本低等优点。它是80年代在计算机技术、激光技术和精密伺服电机技术等现代科学技术成果的基础上发展起来的新型电子出版物。一张CDROM光盘的存储容量为650MB,最多可达到700MB,是磁盘容量的500倍左右。1978年,荷兰飞利浦公司正式推出视频光盘,两年后,飞利浦和索尼公司宣布高密度只读光盘研制成功。1984年,美、日、欧洲开始利用只读光盘存储专利文献、技术资料和工程图纸。1985年,世界上第一个商品化的CD-ROM数据库——Bibiofile(美国国会图书馆机读目录)推出。据统计,至1988年6月,国外光盘数据库产品达200余种,1989年为496种,1990年有861种,而到了1991年已达到1552种。同时,光盘数据库的类型也不断丰富,除了最初的书目数据库外,又增加了文摘数据库、数值事实参考数据库、全文数据库等等,并且还出现了图像型、音频型、软件型和多媒体型等多种形式的CD-ROM产品。

我国引进使用光盘数据库的起步时间并不算晚。早在1986年4月,国家海洋科技情报研究所就首先在我国引进了CD-ROM光盘数据库ASFA(水科学与渔业文摘)和LSC(生命科学文摘)。不仅如此,我国也研制成功了中文CD-ROM数据库,例如,中国科学技术情报研究所重庆分所研制的《中文科技期刊篇名光盘数据库》,以及中科院上海有机化学研究所的《中国化学文献数据库》等。

由于光盘存储容量大,价格低廉,使用方便,在信息领域里得到了越来越多的普及、重视与利用。光盘检索可以免除联机检索所必须支付的高昂系统使用费,它既可以单机检索,也可以实现网络共享检索,是组成计算机信息检索的重要部分。直至今日,光盘检索还配合网络信息检索在许多领域应用着。

光盘检索系统有单机光盘检索系统和光盘网络系统之分。前者只需利用单机即可检索。而光盘网络系统是在计算机局域网的基础上发展起来的,除局域网上的各类微机与服务器及操作系统外,随着90年代信息技术的发展,开发有一系列用于光盘网络的硬件与软件。硬件主要是各种类型的光盘塔;软件是各种光盘组网软件,如Opti-net、CD-net、SCSIExpress等。由于采用的软硬件不同,在局域网的基础上,光盘网络可有多种组网连接方式。目前,国际上流行的光盘局域网连接方式有集中模式和分散模式。集中模式又称文件服务器模式,主要原理是将网上所有的光盘数据库集中连在一台或几台文件服务器上,支持一个核心工作站(即文件服务器)和几十个子工作站,各子工作站通过网络线路来检索核心工作站的数据库。分散模式又称对等模式,主要原理是每个工作站都连接一个光盘驱动器。网上每个工作站CPU必须轮转处理前后台(前台为本地工作站用户,后台为非本地工作站用户)用户的访问请求。它支持多个工作站,各工作站用户可以在同一时间内检索其他工作站的光盘数据库。

1985年至今网络信息检索阶段。

进入90年代,因特网(Internet)发展十分迅速。这种检索系统的客户和服务器是同等关系,只要遵守共同的协议,一个服务器可被多个客户访问,一个客户也可以访问多个服务器。Internet上的信息检索系统就是该系统的典型。其应用从单纯的科学计算与数据传输向社会应用的各个方面扩展,图书馆、信息服务机构和科研机构以及一些大的数据库生产商纷纷加入到因特网上,为信息需求者提供各种各样的信息服务,构成极其丰富的网络信息资源。其数据库内容包括生物、农业、化学、数学、天文学、气象、地理、计算机、工程技术、航空航天、交通运输、环境保护、医疗和保健、历史、法律、政治、旅游等,涉及几乎所有知识领域。光纤技术的广泛使用,千兆网的出现,多媒体技术的发展,多媒体综合信息网络的形成,特别是世界各国信息高速公路的建设,都加快了因特网的扩张步伐,网络用户数量每月以15%的速率快速增加。丰富多彩的信息资源改变了人们获取的根本环境,基于Web的检索工具搜索引擎迅速增加。因特网为我们获取文献信息提供了前所未有的方便,他彻底打破了信息检索的区域性和局限性,用户足不出户就可以获取所需要的文献信息,而且信息形式图文并茂,有声有景。因特网的迅速发展和广泛应用,改变了计算机信息检索的方式和方法,将信息检索拓展到一个更广阔的领域。网络检索已成为人们获取信息的最便利、最广泛、最有效的途径。

1.2 我国计算机信息检索发展概况

我国开展计算机检索的研究开始于20世纪70年代中期。1975年我国首次引进国外文献数据库进行计算机检索的试验。1980年初,由中国建筑技术发展中心等单位在我国驻香港海外建筑工程公司设立了我国第一台国际联机信息检索终端,通过香港大东电报局与美国的DIALOG和ORBIT系统联机,1981年底,北方科技情报所在北京与美国DIALOG联机系统直接联机,1982年9月,冶金部、石油部、化工部等部委情报所也实现了与DIALOG和ORBIT系统的直接联机。但由于国内通信条件的限制,除香港终端外,其余都是采用50波特的电传终端。1983年10月中国科技情报所通过罗马远程数据库通信线路建立了几台300波特的数据终端与欧洲空间组织的ESA-IRS系统、美国的DIALOG和ORBIT系统联机。接着华东理工大学、上海交通大学等高校也纷纷建立了自己的国际联机终端。1984年11月,东南大学用电传机建立了美国DIALOG系统联机终端。到90年代中期,全国有200多个联机检索终端与美国的DIALOG、ORBIT、BRS、MEDILARS,意大利的ESA-IRS,德、美、日合建的STN,加拿大的I.SHARPS,瑞士的DATA-STAR等20多个国际系统联机。与此同时,我国的计算机信息检索系统和数据库的建设也取得了一定的成绩。1978年,中国科技情报所开始试建文献数据库和检索系统,初步实现了建库、编辑、排版和定题检索服务。1984年,北京文献服务处联机信息检索系统(BDSIRS)建成并开始服务,该系统拥有文献记录总量1200多万篇,中西文数据库16个,面向全国的终端用户约150个。1989年,化工部情报所的联机系统(CHOICE)建成,有中文数据库8个,西文数据库1个,国内终端用户210个。同年投入使用的机电部情报所的联机检索系统(MEIRS),有中西文数据库4个,国内用户终端20个。此间,中国医学科学院情报所、冶金科技情报所、电子科技情报所、核科技情报所等也建立了国内联机检索系统。

近几年来我国的通信事业有了很大的发展,自从1994年中国真正加入了国际Inter-net行列起,短短几年内已经建成中国公用数据网(CHINADDN)、中国公用分组交换网(CHINAPAC)、中国公用帧中继网(CHINAFRN)和中国公用电子信箱系统(CHINA-MAIL)四大公用数据通信网,为加速我国信息高速公路的建设奠定了良好的基础,使我国因特网的发展有了必要的条件。在此基础上,同时建起了中国公用计算机互联网(CHI-NANET)、中国教育科研网(CERNET)和中国科技网(CSTNET)等因特网。目前,我国绝大多数高校建起了自己的校园网。中国教育科研网设有北京等八个地区网的八所高校结点,形成包括网络中心、地区中心和高校校园网三级结构的教育科研计算机网络。目前全国几乎所有的国际联机检索终端,都更新成微机终端,由CHINAPAC出口,并且ISTIC、CHOICE、MEIRS三家系统的主机在CHINAPAC上实现了联网,其他一些国内联机检索系统,像BDSIRS的主机,也挂在CHINAPAC上,提高了联机检索的效率,从而使我国的计算机信息检索进入了一个新的发展时期。