在互联网发展初期,网站相对较少,信息查找比较容易。然而伴随互联网爆炸性的发展,普通网络用户想找到所需的资料简直如同大海捞针,这时为满足大众信息检索需求的专业搜索网站便应运而生了。
搜索引擎的实质也就是一个网站,只不过该网站专门为你提供信息“检索”服务 ,它使用特有的程序把互联网上的所有信息归类以帮助人们在浩如烟海的信息海洋中搜寻到自己所需要的信息。
现代意义上的搜索引擎的祖先,是1990年由蒙特利尔大学学主 Alan
EIIluge 发明的 Archie 。虽然当时 World Wide Web 还未出现,但网络中文件传输还是相当频繁的,而且由于大量的文件散布在各个分散的 FTP 主机中,查询起来非常不便,因此 Alan EIMage 想到了开发二个可以以文件名查找文件的系统,于是便有了 Archie 。
Archie工作原理与现在的搜索引擎已经很接近,它依靠脚本程序自动搜索网上的文件,然后对有关信息进行索引,供使用者以一定的表达式查询。由于 Archie 深受用户欢迎 , 受其启发 , 美国内华达的一所大学于 1993 年开发了另一 个与之非常相似的搜索工具,不过此时的搜索工具除了索引文件外,己能检索网页。
当时 ,“机器人”一词在编程者中十分流行。计算机“机器人”(computer robot) 是指某个能以人类无法达到的速度不间断地执行某项任务的软件程序。
由于专门用于检索信息的“机器人”程序像蜘蛛一样在网络间爬来爬去 , 因此 , 搜索引擎的“机器人”程序就被称为“蜘蛛”程序。
世界上第一个用于监测互联网发展规模的“机器人”程序是 Matthew Gray 开发的 World Wide Web Wanderer 。刚开始它只用来统计互联网上的服务器数量 , 后来则发展为能够检索网站域名。
与 Wanderer 相对应 ,MMHn koster 于 1993 年 10 月创建了 ALWEB, 它是 Archie 的 HTTP 版本。 ALIWEB 不使用“机器人”程序 , 而是靠网站主动提交信息来建立自己的链接索引 , 类似于现在我们熟知的 Yd100 。
随着互联网的迅速发展,使得检索所有新出现的网页变得越来越困难,因此,在 Matthew Gray 的 Wanderer 基础上,一些编程者将传统的“蜘蛛”程序工作原理作了些改进。其设想是 , 既然所有网页都可能有连向其他网站的链接,那么从跟踪一个网站的链接开始,就有可能检索整个互联网。到 1993 年底,一些基于此原理的搜索引擎开始纷纷涌现,其中以JumpStation、The World Wide Web Worm (Goto 的前身,也就是今天 Overum) 和 Repository-Based Software Engineering (RBSE)Spider 最负盛名。
然而 JumpStation 和 WWW Worm 只是以搜索工具在数据库中找到匹配信 息的先后次序排列搜索结果 , 因此毫无信息关联度可言。而 RBSE 是第一个在搜索结果排列中引入关键字串匹配程度概念的引擎。
最早现代意义上的搜索引擎出现于 1994 年 7 月。当时 Michael Mauldin 将 John Leavitt 的蜘蛛程序接入到其索引程序中,创建了大家现在熟知的Lycos 。同年4月 , 斯坦福 (Stanford) 大学的两名博士生 ,David Filo 和美籍华人杨致 远同创办了超级目录索引 Yd100, 并成功地使搜索引擎的概念深入人心。从此搜索引擎进入了高速发展时期。目前 , 互联网上有名有姓的搜 索引擎己达数百家 , 其检索的信息量也与从前不可同日而语。比如最近风头正 劲的 Google, 其数据库中存放的网页已达到亿之巨 !
随着互联网规模的急剧膨胀 , 一家搜索引擎光靠自己单打独斗已无法适应目前的市场状况 , 因此现在搜索引擎之间开始出现了分工协作,并有了专业的搜索引擎技术和搜索引擎数据库服务提供商。像过外的INKIOMI,它本身并不是直接面向客户的搜索引擎,但向包括OVERTURE在内的其他搜索引擎提供全文网页搜索服务。因此从这个意义上说,他们是搜索引擎的搜索引擎。
任务点
搜索引擎靠什么来获得数据?
答:蜘蛛程序。
拓展阅读

