1
文献信息 检索教程  第2版
1.3.1.5 3.1.5 搜索引擎的发展历程
3.1.5 搜索引擎的发展历程

搜索引擎根据其发展,可以将其划为五个时代。

1.分类目录时代

早期搜索引擎的代表,其网站分类目录由人工整理维护,质量较高,但效率低,用户通过层层单击获取网站信息。Yahoo是这个时期的代表。

2.文本检索时代

这一代的搜索引擎采用了经典的信息检索模型,主要包括例如布尔模型、概率模型或者向量空间模型。对因特网上几千万个到几十亿个网页并对网页中的每个关键词进行索引,建立索引数据库,主要查询用户关键词语网页内容相似度,将相关度高的则返回给用户。如,早期的Alta Vista、Excite。

3.链接分析时代

这一时代的链接分析代表的是一种推荐的含义,通过每个网站的推荐链接的数量来判断一个网站的流行性和重要性。通过链接分析技术,分析索引网页本身内容,分析索引所指向该网页的链接URL、锚文本,甚至链接周围的文字。比如:“知识产权”一词,当网页A中没有这个词,但网页B中用链接“知识产权”指向这个网页A,那么用户一样可以找到网页A并且越多的网页信息链接都指向A,那么网页A在用户搜索“知识产权”时,也会因其相关性高而排序更靠前。这种模式的首先使用者是Google,随后大多数的主流搜索引擎都开始使用分析链接技术算法。用户能轻易地进入最相关的分类区域去获取信息。

4.用户中心时代

当客户输入查询的请求时候,同一个查询的请求关键词在用户的背后可能是不同查询要求。比如用户输入“专利”一词,有专利申请信息、专利查询信息的不同需要。现在的大部分搜索引擎对相同查询返回相同的结果,如何通过简短的关键词并结合用户搜索时的大量特征,比如上网的时间习惯,操作习惯,内容归类等特点,去逐渐勾勒出用户的特征信息,甚至是体貌特征,利用这种“推测式”算法来判定用户的真正查询要求,而能够利用这些信息进行推演的另一个主要因素是实名制会员的注册和移动因特网搜索引擎的推广,借助“数据挖掘”实现用户中心,是这一时代搜索引擎想要解决的问题。

移动因特网搜索的目的是提供精准到个人的搜索。前三代搜索引擎,是基于PC因特网的搜索,“第四代搜索引擎”是精准到个人需求的移动因特网搜索。因此,第四代搜索引擎的人才,可能不是来自于Google,Baidu,而是来自亚马逊、淘宝这些掌握了大量个人信息的商业巨头,或者来自跨界研究行为心理学、消费心理学、社会心理学等背景的IT研究机构或IT创业团队,因为这些公司或机构,对人们的行为习惯背后的“动机”与“特征”更加了如指掌。

5.生态圈搜索时代

由于每个人周围的设备可以达到1 000~5 000个,所以物联网可能要包含500~1 000兆个物体,因而第五代搜索引擎的发展是基于物联网的搜索。物联网(Internet of things,IoT)就是物物相连的因特网,是依托因特网将用户端延伸和扩展到了任何物品与物品之间,进行的信息交换和通信。物联网的核心技术包括无线传感器网络、ZigBee(低速短距离传输的无线网络协)、M2M技术(人到人(Man to Man)、人到机器(Man to Machine)、机器到机器(Machine to Machine)、RFID技术(无线射频识别,一种通信技术,目前广泛应用于图书馆、门禁系统、食品安全溯源)、NFC技术(由非接触式射频识别(RFID)及互联互通技术整合演变而来,能在短距离内与兼容设备进行识别和数据交换)、低能耗蓝牙技术。

通过物联网核心技术,每个人都可以应用电子标签将真实的物体上网联结,在物联网上都可以查出它们的具体位置。通过物联网可以用中心计算机对机器、设备、人员进行集中管理、控制,也可以对家庭设备、汽车进行遥控,以及搜索位置、防止物品被盗等,类似自动化操控系统,同时通过收集这些小的数据,最后可以聚集成大数据,包含重新设计道路以减少车祸、都市更新、灾害预测与犯罪防治、流行病控制等等社会的重大改变。物联网将现实世界相连,应用范围十分广泛。物联网拉近分散的信息,统一整理物与物的数字信息,物联网的应用领域主要包括以下方面:运输和物流领域、健康医疗领域范围、智能环境(家庭、办公、工厂)领域、个人和社会领域等,具有十分广阔的市场和应用前景。