1
计算机应用基础
1.10.1.7 七、搜索引擎的使用
七、搜索引擎的使用

(一)什么是搜索引擎

如果把互联网称为知识和信息的海洋,那么如何在这汪洋大海中找到想到的东西呢?“搜索引擎”是一种非常好用的方式。所谓搜索引擎,就是在Internet上执行信息搜索的专门站点,它们可以对网页进行分类、搜索与检索。如果在搜索引擎中输入一个特定的搜索词,搜索引擎会自动进入索引数据库将所有与搜索词相匹配的条目取出,并显示一个指向存放这些信息的清单。

搜索引擎的工作原理大致如下:

1.搜集信息 由于互联网上的数据量非常庞大,搜索引擎的信息搜集基本都是自动完成的。搜索引擎利用被称为网络蜘蛛的自动搜索程序来连上每一个网页的超链接。

2.整理信息 搜索引擎整理信息的过程称为“建立索引”。搜索引擎不仅要保存搜集起来的信息,还要将它们按照一定的规则进行编排,这样,搜索引擎不用重新翻查它所有保存的信息就能迅速找到所要的资料。

3.接受查询 用户向搜索引擎发出查询,搜索引擎接受查询并向用户返回信息。搜索引擎能够按照每个用户的要求检查自己的索引,在极短时间内找到用户需要的资料,并返回给用户。目前,搜索引擎返回主要是以网页链接的形式提供的,通过这些链接,用户便能到达所需的网页。通常搜索引擎会在这些链接下提供一段来自这些网页的摘要信息以帮助用户判断该网页是否含有自己所需要的内容。

(二)搜索引擎的主要任务

各种搜索引擎的主要任务都包括以下三个方面:信息搜集、信息处理和信息查询。

1.信息搜集 各种搜索引擎都派出绰号为蜘蛛(spider)或机器人(robots)的“网页搜索软件”,在各网页中爬行,访问网络中公开区域的每一个站点并记录其网址,将它们带回搜索引擎,从而创建出一个详尽的网络目录。

2.信息处理 将“网页搜索软件”带回的信息进行分类整理,建立搜索引擎数据库,并定时更新数据库内容。在进行信息分类整理阶段,不同的搜索引擎会在结果的数量和质量上产生明显的差异。

3.信息查询 每个搜索引擎都必须向用户提供一个良好的信息查询界面,一般包括分类目录及关键词两种信息查询途径。

(三)搜索引擎的分类

搜索引擎按照数据收集方式的不同,主要分为两类:一类是基于关键词的搜索引擎;另一类是分类目录型的搜索引擎。

1.基于关键词的搜索引擎 又称为全文检索搜索引擎。用户可以用逻辑组合方式输入各种关键词(keyword),搜索引擎根据这些关键词寻找用户所需资源的地址,然后根据一定的规则反馈给用户包含此关键词信息的所有网址和指向这些网址的链接。

这类搜索引擎通过一种称为“蜘蛛”的程序自动在网络上提取各个网站的信息来建立自己的数据库,并向用户提供查询服务,是一种真正意义上的搜索引擎,如百度和谷歌等。

全文检索搜索引擎数据库中的数据来源分两种:一是定期对一定IP地址范围内的网站进行检索,一旦发现新的网站,就自动提取网站的信息和网址加入自己的数据库;二是网站提交的信息,即网站所有者主动向搜索引擎提交地址,搜索引擎会在一定时间内派出“蜘蛛”程序搜索所提交的网站的相关信息,并存入自己的数据库中。这些数据都是“蜘蛛”程序搜索到的网页上的具体内容,其搜索结果也能精确到具体网页。

2.分类目录型的搜索引擎 就是把互联网上的信息收集起来,数据是各个网站自己提交的,它就像一个电话号码簿,按照各个网站的性质,把其网址分门别类排在一起,大类下面套着小类,一直到各个网站的详细地址,一般还会提供各个网站的内容简介。用户不使用关键词也可进行查询,只要找到相关目录,就可以找到相关的网站。

目录索引虽然有搜索功能,但严格意义上不能称为真正的搜索引擎,只是按目录分类的网站链接列表而已。用户完全可以按照分类目录找到所需要的信息,不依靠关键词进行查询。目录索引中最具代表性的莫过于大名鼎鼎的雅虎、新浪分类目录搜索等。

全文检索搜索引擎和分类目录型的搜索引擎在使用上各有长短。全文检索搜索引擎因为依靠软件进行,所以数据库的容量非常大,但是它的查询结果往往不够准确;分类目录型的搜索引擎依靠人工收集和整理网站,能够提供更为准确的查询结果,但收集到的内容却非常有限。因此,现在很多搜索引擎网站都提供两种查找方式。比如谷歌、新浪、雅虎既有目录查找,也有关键词查找。遇到搜索不到的情况,除了更换关键词外,还要多尝试其他的搜索引擎网站,要善于总结搜索技巧。

(四)常用的搜索引擎

1.全文检索搜索引擎 主要全文检索搜索引擎有谷歌和百度等。谷歌(http://www.google.com)是世界范围内规模最大的搜索引擎,中英文搜索都可以;百度(http://www.baidu.com)是国内最早的商业化全文搜索引擎,拥有自己的网络机器人和索引数据库,专注于中文的搜索引擎市场。百度搜索引擎功能强大,除有网页搜索外,百度还有新闻、贴吧、视频、音乐、图片、视频和地图等,如图7-21A所示为百度主页面,图7-21B所示为谷歌主页面。

图7-21 全文检索搜索引擎

A.百度主页面;B.谷歌主页面

例如在搜索类别中点击“网页”,然后在关键词输入框输入关键词,例如“列车时刻表”,按“Enter”键(或按“百度一下”按钮)就会返回搜索到的各种关于“列车时刻表”的网页页面;在搜索类别中点击“音乐”,然后在关键词输入框输入关键词,例如“传奇”,按“Enter”键就会返回各种演唱“传奇”的歌曲,供下载或直接聆听欣赏;在搜索类别中点击“图片”,然后在关键词输入框输入关键词,例如“消化系统”,按“Enter”键就会返回许多的“消化系统”图片。

2.分类目录型的搜索引擎 主要分类目录搜索引擎有新浪(www.sina.com.cn)和搜狐(http://www.sohu.com)等。以搜狐为例进行说明。搜狐是一个典型的分类目录型的搜索引擎网站,如图7-22所示。网页的最上面提供目录索引,这部分为搜索搜狐内部的索引数据库,使用目录列表进行搜索的方式适于查找那些不知道关键词的资料;网页中间的部分提供搜索功能。

图7-22 搜狐的网页搜索功能

(五)选择搜索引擎原则

1.快速 查询速度当然是搜索引擎的重要指标,优秀的搜索工具内部应该有一个包含时间变量的数据库,能保证所查询的信息都是最新的和最全面的。

2.准确 好的搜索引擎内部应该含有一个相当准确的搜索程序,搜索精度高,查到的信息总能与要求相符。

3.易用 易用也是选择搜索引擎的参考标准之一。

4.强劲 理想的搜索引擎应该既有简单查询的能力,也应该有高级搜索的功能。高级查询最好是图形界面,并带有选项功能的下拉菜单,可以使用像“AND(或&号)”“OR(或|号)”“NOT(或!号)”以及“( )”等操作符来连接词或词组,这样可以缩小搜索范围,甚至可以限定日期、位置、数据类型等。

(六)搜索引擎的基本操作

不同的搜索引擎提供的查询方式不完全相同,下面主要介绍使用关键词进行查询的基本操作。

1.简单查询 在搜索引擎中输入关键词,然后单击“搜索”,搜索引擎就把包括关键词的网址和与关键词意义相近的网址一起显示出来,点击列出来的网址名称就可以访问该网址。这是最简单的查询方式,使用方便,但是查询的结果却不准确,包含很多无用的信息。

2.查询条件具体化 查询条件(搜索引擎中输入的关键词)越具体,就越容易找到所需要的资料。所以别怕在搜索引擎中输入复杂的搜索条件。举例来讲,如果想找一些有关“Excel的统计学函数的使用方法”的资料,一是输入“Excel统计函数”(Excel和统计函数之间用空格隔开),二是输入“Excel”。试比较这两种查询所返回的结果,第一种搜索条件返回了88600项搜索结果,而第二种搜索条件返回了100000000项搜索结果。显然输入较具体的条件可以过滤掉大量的无用信息,从而减少搜索的工作量。

3.使用加号 有时需要搜索结果中包含有查询的两个或两个以上的内容,这时可以把几个条件之间用加号相连。比如说想查询王铮亮的歌曲《时间都去哪了》,可以输入“王铮亮+时间都去哪了”。大多搜索引擎使用空格和使用加号的查询结果是相同的。

4.使用减号 在两个关键词中间使用减号,意味着在查询结果中不能出现减号后面的关键词。在查询某个题材时并不希望在这个题材中包含另一个题材,这时就可以使用减号了。比如想查找“王铮亮的歌曲《时间都去哪了》”,但又不希望得到的结果是RM格式的。可以在搜索引擎中输入“王铮亮歌曲时间都去哪了-RM”,注意一定要在减号前留一个空格位。

5.使用引号 如果在搜索引擎中输入的关键词中包含空格,比如在搜索引擎中输入关键词(如虚拟现实)进行搜索时,搜索引擎会认为这是两个关键词,那么连“虚拟世界,改变现实”这样的信息都会出现在搜索结果中。为了避免出现这种结果,给要查询的关键词用英文的双引号括起来,告诉搜索引擎这是一个词,就可以保证搜索结果非常准确;此外,有时搜索引擎会自动把提交的关键词进行拆分,这样搜索的结果就不准确,使用双引号把中间没有空格的关键词括起来还能告诉搜索引擎不能对关键词进行拆分,这一点对于搜索中文影响不是很大,但对英文搜索时关系非常大。比如在搜索引擎中输入的关键词为computer games,基本上等同于computer and games,它会对这两个词进行搜索,而且这两个词在同一个网页中的顺序对于搜索结果没有影响,而如果使用“computer games”作为关键词进行搜索,则要求这两个单词必须严格按照给定的前后顺序进行排列,否则就不符合搜索条件。

6.布尔检索 所谓布尔搜索,指的是把关键词通过某种布尔逻辑关系表达式提交给搜索引擎,让搜索引擎按照用户的意思进行搜索,从而更加准确地查找到相关资料。

常用的有:AND(逻辑与)、OR(逻辑或)、NOT(逻辑非),恰当应用它们可以使查询结果非常精确,另外,输入代表逻辑关系的字符时,一定要用半角。

AND,称为“逻辑与”,相当于前面所讲的加号,用AND进行连接的两个关键词必须同时出现在查询结果中,例如,输入“3dx MAX AND MAYA”,它要求查询结果中必须同时包含3dx MAX和MAYA。

OR,称为“逻辑或”,它表示所连接的两个关键词中任意一个出现在查询结果中就满足查询条件,例如,输入“3dx MAX OR MAYA”,它要求在查询结果中可以只有3dx MAX,或只有MAYA,或同时包含3dx MAX和MAYA。

NOT,称为“逻辑非”,相当于前面所讲的减号,它表示所连接的两个关键词中应从第一个关键词概念中排除第二个关键词,例如,输入“3dx MAX NOT MAYA”,它要求在查询结果中只能出现3dx MAX,而不能出现MAYA。

在使用大多数的搜索引擎进行搜索时,都会用到这些查询规则,但是不同网站的搜索引擎会稍有不同,可以查看具体的搜索引擎的使用帮助。

7.网页快照 现在大部分的搜索引擎都提供“网页快照”的功能。当输入关键词,单击“搜索”时,在搜索到的每一条记录的后面都有一个链接“网页快照”。网页快照就是搜索引擎在收录网页时,都会做一个备份,大多是文本的,保存了这个网页的主要文字内容,这样当这个网页被删除或连接失效时,用户可以使用网页快照来查看这个网页的主要内容,由于这个快照以文本内容为主,所以会加快访问速度。