搜索引擎的概念
搜索引擎:就是在Internet上执行信息搜索的专门站点,它们可以对主页进行分类与搜索。如果输入一个特定的搜索词,搜索引擎就会自动进入索引清单,将所有与搜索词相匹配的内容找出,并显示一个指向存放这些信息的连接清单。
一、分析检索的主题
了解查询目的和要求,确定需要的。
1. 信息类型(全文、文本、图像、声音等);
2. 查询方式(浏览、分类检索、关键词检索等);
3. 查询范围(全文、网页、标题、FTP、软件、外文等);
4. 查询时间。
二、选择合适的搜索引擎
要选择合适的检索工具时,就要先了解所要使用的搜索引擎
特点:有庞大的数据库,提供全面的结果信息,例如,文章的日期,大小等等。可搜索所有网站,快速有效的搜索到自己所需内容,是一个快速、强大的搜索引擎,它具有足够的响应能力来处理任何极度复杂的搜索,用户界面相当好。并且具有一定的大写、名词识别能力的快速搜索引擎,它的数据库是最大的,能找到别的搜索引擎所不能找到的东西。
Yahoo! 是一个涵盖全球120多亿网页(其中雅虎中国为12亿)的强大数据库,拥有数十项技术专利、精准运算能力,支持38种语言,近10,000台服务器,服务全球50%以上互联网用户的搜索需求。
百度搜索引擎拥有目前世界上最大的中文搜索引擎,总量超过3亿页以上,并且还在保持快速的增长。百度搜索引擎具有高准确性、高查全率、更新快以及服务稳定的特点,在中文搜索方面,百度甚至比GOOGLE更胜一筹。
搜狐分类目录 http://dir.sogou.com/
50,000主题分类,500,000优选网站,人工精选分类
Google 网页目录 http://www.google.com/dirhp?hl=zh-CN&tab=wd
Google 的网路目录内容是依据『Open Directory』,经由全球各地的义务编辑人员精心挑选,再由 Google 著名的『网页级别』技术(专利申请中)分析,让网页依照其重要性先后排列出,并透过网页介绍里的横线长度,来标明此网页的重要程度。
网易搜索分类目录 http://dir.so.163.com/
一个由网上的志愿人员编辑的分类网站目录。
新浪搜索分类目录 http://dir.iask.com/
由新浪搜索专业编辑挑选和分类的网站结果。
三、抽取适当的关键词
如何抽取关键词 :
1. 使用名词或物体做关键词;
2. 检索式中使用2-3个关键词;
3. 要注意同义词、近义词、相关词或同一术语的不同表达方式。如,internet、 web 、www 、the net;
4. 对固定短语,用“”括起来进行检索,以提高检索的精确度。如,“worle wide web”。
四、及时调整检索策略
检索结果为0或太少时,就需要扩大检索范围
1、使用同义词、近义词或相关词。
2、减少最不重要的概念词,或使用较普遍的词,或改用上位词。
3、利用某些搜索引擎的自动扩检功能进行相关检索。
4、使用多个搜索引擎。
如果得到的检索结果太多,或检索结果不相关,则需要缩小检索范围。
1、使用布尔逻辑
布尔逻辑:是指适用AND、OR或NOT等运算符查找含有某种词语或特定组配形式的那些网页(记录)。
2、使用词组检索
使用双引号(在输入法半角的状态中输入)。
当您输入较长的查询词时,搜索引擎会依据查询词的字符串做拆字处理。若您需要得到精确、不拆字的搜索结果,可在查询词前后加上双引号。
例如:华南师范大学考研 与 “华南师范大学考研”。
3、使用高级检索语法
① Intitle(在GOOGLE中是allintitle): intitle的意思是所有搜索结果的网页的标题中都要包含“关键词A”。
格式:关键词B intitle:关键词A(多个个关键词中最重要的词放此)[只适用在百度中]
allintitle:关键词A[用于GOOGLE中]
例:查找有关温总理访日融冰之旅方面的信息
温家宝 融冰之旅 与 intitle:温家宝融冰之旅
又例:查找圆明园的历史
由于“圆明园”这个词非常关键,如果选择”圆明园 历史“这个搜索式不如选”历史 intitle:圆明园“(结果是:在所有标题中包含”圆明园“这个词的网页中寻找出现”历史“这个关键词的结果)
② Inurl(在GOOGLE中是allinurl): url是Uniform Resource Locator(统一资源定位符)的缩写,简单地说,就是地址栏里的东西。意思是在url中含有关键词B的网页中,寻找关于关键词A的信息。
格式:关键词A inurl:关键词B(关键词A与inurl之间要用空格隔开)
例:图书馆 inurl:lib
SITE site是限定在某个网站内搜索关键词A
格式:关键词A site:xxx.com(即某个域名/网站)
例:在新浪网中查找有关融冰之旅的信息
融冰之旅 site:sina.com
③ FILETYPE: filetype 是限定搜索结果的文件类型。互联网上,存在大量非网页格式的资料,如word文件、pdf文件等。filetype是专门特定格式文件的。
格式:关键词A filetype:文件格式后缀名
例:入党申请书 filetype:doc,搜索结果全都是word文件。
思考
1.结合本节介绍的三大搜索引擎,结合自己的专业知识搜索经历对三大搜索引擎进行综合比较,并互相交流?
2.本节我们学习了几种中文搜索引擎,你还能列举其他中文搜索引擎,并结合实际使用说明它的优势?
3.结合本节所讲的网络搜索引擎检索的技巧,你能对比出这些搜索引擎搜索技巧的异同点吗