1
文献信息检索与利用
1.15.4 第四节 计算机网络信息检索

第四节 计算机网络信息检索

1 网络信息检索的定义

INTERNET的信息资源具有数量巨大,增长迅速,形式多样,变化频繁,分布广泛,结构复杂等特点。由于INTERNET信息没有统一的组织管理,没有统一的目录,信息资源杂乱分布,面对丰富的资源,人们虽然兴趣盎然,但在检索这个世界上最庞大的网络化信息资源宝库时常感到无从下手,没有受过专业训练的人往往在网上泡上几个小时也一无所获,受过正规专业训练的图书馆员大多具有良好的分类和主题标引能力,能在杂乱的信息海洋中准确辨别信息的价值和获取所需信息。

因此,我们认为网络信息检索就是利用信息检索的相关技术,将Internet上的海量信息资源进行存储、查找和分析的过程,最终检索到自己想要的信息。

2 网络信息检索的特点

网络信息检索具有如下特点:

交互式作业方式。所有的网络信息检索工具都具有交互式作业的特点,因此具有良好的信息反馈功能和瞬间响应功能。这两个指标是传输信息检索系统性能的最重要指标,在网络环境下也具有同样的意义。

用户透明度高。网络信息检索对用户屏蔽了网络的各种物理差异,使用户在使用这些服务时感受到明显的系统透明度。这里所指的物理差异包括主机的硬件平台、操作系统等软件上的差异,客户程序和服务程序版本上的差异,主机的地理位置、信息的存储方式可以通过多种协议方式甚至通信协议的差别(如WWW客户程序可以通过多种协议使用各种不同的信息资源)等。这一特点对网络环境下的信息检索来说是十分关键的。

信息检索空间的拓宽。信息检索空间是衡量信息检索工具的重要指标之一。网络信息检索在这方面具有传统信息检索和Internet基本信息服务所不具备的优势。以FTP为例,它的检索空间乍看起来似乎包括了Internet上的所有FTP服务器,其实不然。尽管使用FTP可以检索所有的服务器,但是用户必须预先知道这些服务器所在的主机地址,而且在某一时刻只能使用一个FTP服务器。网络信息检索工具的工作方式则与此不同,它们可以同时使用多个主机,甚至是所有主机的某种资源,而且用户不必知道它们的具体地址。这一特点为用户带来的好处是显而易见的。

友好的用户界面。与Internet的三大基本信息服务(E-mail、Telnet、FTP)相比,网络信息检索系统的用户界面(interface)要友好得多,特别是一些商业化软件(如Mosaic和Netscape)。即使是Internet上的一些免费软件(如MSWindow和XWindows下的各种服务程序和客户程序)也设计得相当不错。对于有一定计算机使用经验的人来说,学会使用这些软件是轻而易举的事情。Internet的普及在很大程度上是得力于这些设计精良的软件。

3 网络信息检索的发展过程

众所周知,Internet是一个几乎覆盖全球的“网络的网络”,其现有规模已经大得令人瞠目结舌。目前全世界网站总数已经超过4000万个,网页总数估计达到15亿,并且还在继续不断地增长。Internet上的信息资源是名副其实的信息“海洋”。用户在如此浩瀚的“大海”中去寻找自己需要的信息,无异于“大海捞针”。因此,人们自然会想到使用“检索工具”。

从20世纪70年代联机信息检索系统开始投入使用以来,人们已经开发了许多种类的情报检索软件,尽管这些检索软件的功能与日俱增,技术水平也不断提高,但其运行环境基本上还是单机或局部网络。80年代出现了分布式的情报检索系统(如分布美、德、日三国的STN系统),但其主机台数仍十分有限,只是分布在几个点上。随着Internet的不断扩张,传统的信息检索手段变得越来越困难,而且要求使用这些检索工具的运行环境已经不再是连接为数不多几个点的局部网络,而是一个覆盖全球的广域网。因此,原有的检索工具已不能适应新的网络环境的需要。许多联网的大学或研究机构纷纷开发能在广域网环境下工作的新型信息检索工具。于是一类被人们称为网络信息检索工具(Networked Information Retrieval Tools)的新型检索工具便应运而生了。网络检索工具的研究与开发也使原来的“情报检索”这一学科分支产生了新的分支,即“网络信息检索”(NIR Networked Information Retrieval)。

4 网络检索工具

网络检索工具大致可分为三大类型:

(1)字典型查询工具。它用于查询某人的电子信箱地址、姓名、电话、通信、传真、URL、地址等信息,甚至可以查询服务器域名、网关、组织名称以及该组织下注册的所有成员信息,某主机名称及该主机上注册的所有用户信息等等。由于服务是与数据库相连,因此在其上会有不同的服务及由不同机构维护的名址库。这类工具有:White Pages Directory、Internet YellowPages、Whois、DejaNews、FAQ、Archive等。

Whois是用于“白页服务”的网络检索工具,一般用来查找Internet上某个用户或某个机构的E-mail地址、邮政地址和电话号码。Whois结构简单,使用方便,因此Internet上有很多主机都安装了这种工具。其中最著名的Whois服务器的地址是:Whois.internic.net。

(2)索引型查询工具。它为网上信息资源建立索引,这类工具有:FTP资源的索引Archie,Gopher资源的索引Verronica、jughead,网上服务器的索引Wais等。

Archie是网络上用来查找其标题满足特定条件的所有文档的自动搜索服务工具。为了从匿名FTP服务器上下载一个文件,必须知道这个文件的所在地,即必须知道这个匿名FTP服务器的地址及文件所在的目录名。Archie就是帮助用户在所有FTP服务器中寻找文件的工具。用户只要给出所要查找文件的全名或部分名字,文档查询服务器就会指出在哪些FTP服务器上存放这样的文件。

Wais Wide Area Information Service称为广域信息服务,是一种数据库索引查询服务。它是由美国马萨诸塞州坎布里奇市的Thinking Machines公司与DowJones&CO.和Apple Computer、KPMGPeat Marwick四家公司共同合作开发的。Archie处理的是文件名,不涉及具体的内容;而Wais则是通过文件内容而不是文件名进行查询。它就像一个图书管理员,无论用户需要图书馆内的哪方面资料,它都能快速地为用户找到。因此,如寻找包含在某个或某些文件中的信息,Wais就是被利用的工具。Wais是个基于Z39.50标准的分布式文本搜索系统,用户可通过给定索引关键词查询到所需的文件信息,如文章或图书等。

WAIS是由世界上几千台装有WAIS软件的服务器协同工作,各自提供一些称为“信息源”的数据库而综合形成的内容丰富的WAIS信息源总体。无论从哪一个装有WAIS客户软件的客户机上进行访问都可看到所有的信息源。目前,网上有数百个免费的WAIS资源,它们涉及的领域较宽,如计算机科学、网络和分子生物学、文学以及宗教等,但社会科学方面的内容收集得较少。一些商业信息服务也通过WAIS界面提供产品,这些服务是需要付费的,用户一旦付了费,它们便与免费的WAIS服务没有差别。

WAIS的检索分两步走:第一步,先从数据源列表中选择自己的检索对象。第二步,在选定的数据源范围内进行关键词检索。WAIS除查询信息存放地址外,还可以进一步显示与浏览具体内容。WAIS在显示检索结果时,将检索结果按相关度权数大小排序。这样,用户就可以先选出相关度较高的信息加以浏览,以节省时间。

(3)交互式查询工具。它提供类似商用联机检索的网络信息查询服务。这类工具可分为Gopher和WWW两类。

Gopher是1991年4月由美国明尼苏达大学最早开发的一种交互式浏览型检索软件。Gopher起初只是用在明尼苏达大学校园网上,后来才逐步推广到整个Internet上。目前,在Internet上有数以千计的运行Gopher服务器程序,绝大多数都是向所有用户开放的。Gopher系统的主要信息形式是正文文件。Gopher是早期的网络检索工具,现在随着WWW的发展,它固有的不能传送声音、图像等多媒体信息的缺点使它几乎面临被淘汰的境地,不过WWW中仍将它作为一种功能保留下来并与WWW集成一体。

Gopher是一种嵌套菜单式查询工具,它把网络上分散和各自独立的信息资源联成一体,只需按照菜单指示的路径,就能到达网间的任何地方,而不需要知道它们的具体存储方式和具体地址,也不需要知道任何命令。信息文件可能驻留在不同的计算机上,通过目录结构把它们链接在一起,以简单的菜单选择方式提供遍布全球的Gopher信息资源的查询。一个Gopher服务器的所有信息文件组成一棵信息树,由于这种链接是透明的,用户查询时可以在信息树之间自由穿越,不必考虑信息的实际储存位置。

5 使用网络信息检索的技巧

互联网信息的无序使得管理和使用都非常不方便,要想快速便捷地对互联网信息进行检索、查询,我们需要依靠搜索网站的帮助。而要用好搜索网站,提高搜索的命中率,我们还需要掌握一些搜索的技巧或使用一些恰当的工具。

5.1 选择恰当的关键字

互联网上流传的所有搜索技巧都是在如何确定关键字上做文章,选择一个好的关键字是搜索成功的关键。关键字代表着我们要搜索资料的特征,如果您找不到所需的信息,大部分情况是因为在关键字的选择方向上发生了偏移。找出关键字可不是一件简单的事情:首先您需要知道或者估计出目标网页内包含的文字,在脑子里形成一个比较清晰的概念,再从中提炼出此类信息最具代表性的关键字。尽量不要选择常用词汇进行搜索,但可以同时使用多个关键字,并使用与、或、非等多种逻辑关系进行搜索,这样才能避免返回无关的搜索结果。

(1)避免输入及逻辑关系错误

首先我们要避免输入的关键字中有错别字,以及其他错误的操作。不同的搜索网站往往都有各自的特点,在某些搜索网站上,您可以使用“Where can I find software?”这样的自然语言进行搜索;但在某些搜索网站上,您甚至不能成功地使用单个汉字作为关键字进行搜索。另外,在使用多关键字通过与、或、非逻辑关系进行搜索时,不同的搜索网站所采用的逻辑关系表示符号也可能有所不同。所以我们有必要针对不同的搜索网站选择不同的关键字,并在首次使用一个搜索网站时,花一点时间阅读搜索网站的帮助文档,这是非常有必要的。

(2)使用多个关键字来提高查准率

对于大部分的搜索任务来说,一般都能够通过搜索网站找到需要的网页,但是如果不细心选择关键字,搜索网站可能会返回很多并不是您需要的结果。此时,如果您将另外一个跟搜索目标相关的关键字加在一起搜索,返回的结果就会少很多,也更加准确。因此,很多时候我们需要使用多个关键字查询的方法来提高搜索准确率。但需要注意的是,搜索网站对关键字的个数可能会有限制。另一方面,也要注意搜索内容之间的逻辑关系是否合理。

5.2 句子检索法

句子检索法可有效提高文本查准率。在使用搜索网站时,不少人经常被“关键字”这个名称所限,而忘了关键字可以是一个字、一个词,甚至一句话。例如在搜索小说、文章等文本内容时,最简单的方法,是用文本的标题搜索,但最高效的方法,则是用文中的一句话来搜索,可以让您的搜索效率提高不少。

5.3 文件检索法

文件检索法有利于快速查找文件目标。如果您的搜索目标是一个文件,如一个公司Logo的图像文件,或者一个设备驱动程序的压缩包,您除了可以用公司的名称或者设备的名称进行搜索外,还可以从文件的名称入手。例如,当您在搜索设备驱动程序时,如果选择设备的品牌、型号为关键字时,搜索网站会返回许多无关的信息,这时,如果在这些关键字的后面再加上ZIP或RAR等常见压缩文件扩展名,您会有意外的收获。

5.4 “抛砖引玉”法

“抛砖引玉”法有利于快速查找相关信息。如果您有一个非常喜欢的专业网站,并希望从互联网上找到更多同类的网站,这时怎么选择关键字最有效呢?或许搜索这个网站的内容类型会找到一些不错的站点,例如使用“军事网站”、“医学站点”做关键字,但很多时候这种搜索方法也可能一无所得。实际上最有效的方法是抛砖引玉,用您最喜欢的网站的站点地址作为关键字。因为链接到那个站点的往往是同类站点,用这种方法您肯定能够找到一些相关的网站。

5.5 中西结合检索法

中西结合检索法可以很好地完成某些搜索任务。在使用搜索网站时,灵活地结合中文和英文可以很好地完成某些搜索任务。您除了可以将要翻译成中文的英文词汇用作关键字,并指定搜索网站只返回中文网页的结果,尝试将搜索网站当成翻译机器来使用;还可以将中文词汇的一部分翻译成英文。例如您正想将“土豆烧牛肉”翻译成英文,只要您知道土豆的英文,您就可以输入关键字“土豆烧牛肉potato”,从互联网上找到含有土豆烧牛肉的英文网页。

6 网络信息检索技术

网络信息检索技术包括常用运算符、高级搜索技术、限制检索、特殊检索技术。

6.1 常用运算符

常用运算符一般用于搜索引擎的简单检索。在网络信息检索中,掌握一些常用的运算符,会使你的检索提问更准确,搜索结果更精确。

(1)加号“+”

格式:+检索词

功能:检索词必须出现在搜索结果中。

示例:查找有关沙漠化与土壤的网页,检索提问式可以为:+沙漠化+土壤,表示沙漠化与土壤这两个词必须出现在搜索结果网页中。

(2)减号“-”

格式:-检索词

功能:检索词不能出现在搜索结果中。

示例:查找关于windows2000的资料,但又不想看到关于Windows 98或Windows 3.1的网页,检索提问可以为“+windows2000-windows98-windows3.1”。减号的作用在于可以使搜索结果集中反映你的需求,使你无需为大量无关的搜索结果而头疼。

(3)管道符“|”

格式:检索词一|检索词二

功能:一组检索词在搜索结果中只要出现任一个即被命中。

示例:查询有关农产品或土壤的资料,检索提问可以为“农产品|土壤”,表示在搜索结果中农产品与土壤这两个词只要出现一个就被命中。

(4)引号“""”

格式:“词组”,如“computer network”

功能:词组检索功能,只检索含有该词组的资料。

示例:检索提问“computer network”,表示只检索含有词组computer network的网络文档。

检索提问“土壤沙漠化”,会找出包含土壤沙漠化的网站,不会查找有关XX沙漠化的内容。

此外,一些标点符号如“-”(连字符),“\”(斜杠),“_”(下划线),“,”(逗号),“.”(点)等在不同的搜索引擎也可作为短语连接符,例如“mother-in-law”,尽管没有加引号,仍作为专用语处理。

(5)截词符“*”(星号)

格式:词干*,如computer*

功能:自动查找具有相同词干的所有单词,提高检索的全面性,扩大命中结果的数量,适用于一部分网站。

示例:检索提问computer*,表示可自动查找computer,computers,computerised,com-puterized等单词;又如manag*会检索出manage,manager,managers,management,managing、managed等相关的内容。

几乎所有主要搜索引擎均支持以上这些检索功能,只是具体使用时有时符号会有所差别,所以用户在实际使用前可先浏览一下“Help”(帮助页面)。

6.2 高级搜索技术

高级搜索技术一般用于搜索引擎的高级检索,即所谓的“advanced search”。搜索引擎都有简单检索与高级检索之分,简单检索是搜索引擎的默认工作状态,高级检索必须用鼠标点击“advanced search”按钮。

(1)布尔逻辑算符(Boolean)

(2)位置算符

以上两种算符前面已经讲过。

(3)优先算符“()”格式:检索词…

功能:控制逻辑算式中的优先次序,使括号中的表达式先执行。

(4)限定查找的起止日期

在高级检索中,利用文本框下面的日期输入框(一般为From:→To:)

(5)控制检索结果的排序

在高级检索中,只要在文本框下的排序(Ranking,Sort by:等)框中输入有关的词语,即可对检索获得的结果进行排序控制,使之按照输入的词语排序。

6.3 限制检索

限制检索指缩小和限定搜索引擎的搜索范围,允许搜索引擎只在网页的某一种元素中,如标题、链接、URL等查找结果。限制检索使检索提问更具体、准确。

主要的限制检索命令:

(1)搜索标题

格式:title:text或t:text(注:text指文本文字)

功能:检索网页标题中含有指定字或词组的页面。

示例:title:survey,检索网页标题中含有survey这个单词的所有页面。

(2)搜索网站

格式:domain:domain name或host:name或site:domain name

功能:检索词必须出现在域名、主机名或主机地址中。

示例:domain:UK,检索英国(United Kingdom)的网页;domain:com,检索所有com网站。

(3)搜索URL

格式:url:text或u:text

功能:检索整个URL中含有指定的字或词组的所有页面。

示例:如果你不知道Intel公司的网址,可通过url:intel查询。

(4)搜索链接

格式:link:URL

功能:检索与指定URL链接的所有页面。

示例:要查询链接到百度网站的所有页面,可使用link:www.baidu.com查找。

(5)搜索图片、图像

格式:image:文件名

功能:检索含有指定文件名图像的所有网页。

示例:要检索含有“日出”图像的所有网页,使用images:sunrise查询。

(6)搜索多媒体信息

格式:media:text

功能:检索文件名字中含有指定文字的多媒体信息

示例:要检索取名为(或名字中含有)cloud的图像、声音或录像,可使用media:cloud查询。在具体使用时,还需参考“Help”等等。

6.4 特殊检索技术

在简单搜索和复杂搜索过程中还有一些技术也是帮助搜索的利器。

(1)词间空格

检索词之间的空格在不同的搜索引擎中有不同的定义。

(2)区分首字母大小写(即case-sensitive,大小写敏感性)

首字母大写,指检索词的第一个字母大写;首字母小写,指检索词的第一个字母小写。它主要是针对检索词中含有人名、地名等专有名词而言的。在区分大小写的情况下,首字母大写,检索词被当做专有名词看待如Internet专指因特网,可提高检索的准确性。

(3)自然语言检索

即直接采用自然语言中的字,词或句子做提问式进行检索,同一般口语一样。如“What is WTO”或“Whois Clinton”以这样的自然语言表达式充当检索提问式。

(4)多语种检索

即提供多种语言环境供检索者使用,检索者可根据自己的需要选择一种语言,系统会按指定的语种进行检索并输出检索结果。

6.5 搜索结果去重

在网络搜索中,有时你会发现搜索结果的前几位似乎都来自同一个网站。这时你可以使用搜索结果重组功能,避免这种情况的出现。

搜索结果去重功能是指一个网站最多只能有一页出现在排名靠前的搜索结果中,以保证搜索的质量,同时给用户更多更好的选择搜索结果的机会。

(1)相关搜索

在搜索信息时,相关搜索也是非常有用的功能。相关搜索功能的作用是锁定搜索条件,并自动列出与检索词相关的词。

(2)相似网页搜索

有时发现某个搜索结果特别准确,正是你所需要的。“Find Similar”─相似网页搜索功能可让搜索引擎将与该网页相似的网页也罗列出来。

(3)Word Stemming搜索

Word Stemming是截词的一种,指的是在查询一个关键词的基础上,查询由此关键词变化而来的其他词。

(4)二次检索

在网络信息搜索中,经常会感到搜索结果太多,令人目不暇接,而且其中很大一部分是不需要的。此时建议用户使用搜索引擎所提供的“Search Within”,即二次检索功能。二次检索可以锁定搜索的范围,它指的是在前一次搜索结果的基础上再进一步地查找,有时相当于and的功能,但在使用上更具灵活性。