1
文献信息 检索教程  第2版
1.3.4.3 3.4.3 搜索引擎发展特点和趋势
3.4.3 搜索引擎发展特点和趋势

1.暗网搜索索引技术的发展

暗网(Hidden Web),又称深网。是指那些存储在网络数据库里、不能通过超链接访问而需要通过动态网页技术访问的资源集合,不属于那些可以被标准搜索引擎索引的表面网络。2001年,Christ Sherman、GaryPrice对Hidden Web定义为:虽然通过互联网可以获取,但普通搜索引擎由于受技术限制而不能或不作索引的那些文本页、文件或其他通常是高质量、权威的信息。

暗网如深邃的海底,而当今的互联网上的搜索服务只像在海洋的表面拉起一个大网。第一次使用暗网这一特定术语,是2001年伯格曼的研究当中。从信息量来讲,与能够索引的数据相比,“暗网”更是要庞大得多。根据Bright Planet公司此前发布的一个名为《The Deep Web-Surfacing The Hidden Value》(深层次网络,隐藏的价值)白皮书中提供的数据,“暗网”包含100亿个不重复的表单,其包含的信息量是“非暗网”的40倍,有效高质内容总量至少是后者的1000倍到2000倍。更让人无所适从的是,Bright Planet发现,无数网站越来越像孤立的系统,似乎没有打算与别的网站共享信息,如此一来,“暗网”已成为互联网新信息增长的最大来源,也就是说,互联网正在变得“越来越暗”。

“暗网”主要有动态内容、脚本化内容、文本内容、私有网页、非HTML、未被链接内容等几种类型。“不可见”的原因主要分为两类:一种是技术的原因,很多网站本身不规范、或者说互联网本身缺少统一规则,导致了搜索引擎的爬虫无法识别这些网站内容并抓取;另一个原因则是很多网站根本就不愿意被搜索引擎抓取,比如考虑到版权保护内容、个人隐私内容等,很多网站都在屏蔽百度,比如视频网站优酷也宣布屏蔽百度一样。

因此,如何抓到、利用暗网这样的“搜索引擎抓取不到的网页数据”,也将是未来搜索引擎关注的焦点之一。

2.搜索产品与人工智能技术深度融合

人工智能与搜索技术深度融合,在信息多样性、搜索便捷度、结果准确性等方面大幅提升用户搜索体验。目前,市场上主流搜索引擎的机器识别技术已经能够以较高的成功率探测或者识别语音、图像、视频等,进一步帮助用户实现所想即所搜、所搜即所得;人工智能机器人辅助搜索,已经成为各大搜索引擎的标准配置,如百度的“度秘”、搜狗的“语音助手”、必应的“小冰”等,正逐渐受到用户的认可和欢迎。

3.社交、新闻、专业问答等垂直搜索发展迅速

综合搜索引擎正在出现信息分类搜索的垂直化、专业化发展趋势。一方面,搜索信息的种类更加丰富,如搜狗搜索相继接入微信、QQ兴趣部落、知乎等,并与微软必应达成合作,在社交、新闻、专业问答、英文和学术搜索等垂直领域强化优质内容的吸收力度,构建新型内容生态、形成差异化竞争力;另一方面,搜索引擎针对用户在新闻热点、公益查询、应用分发、商品消费等不同领域的搜索需求,推出更加智能、全面、专业的搜索产品。由此引发了搜索引擎行业出现新的垂直、专业化发展趋势。

4.移动App的普及和优化

2015年,移动端搜索量已经超过了桌面搜索量,并且移动App的使用量也在不断增长。在2016年移动App成为影响检索量和品牌曝光率的一个重要因素。这些App将成为移动客户体验必不可少的工具。

有数据表明用户在移动App花费的时间占消耗在数字媒体的总时间的52%。不仅如此,500强企业42%的移动端销量都来源于移动App的订单。一个设计精良的应用程序应当将其所使用的图标形象化和个性化,具有更高的辨识度,并增强其包含的信息量,以吸引用户更多了解信息。

5.结构化数据会变得更加重要

2015年Google对外宣布使用他们新的机器学习系统——RankBrain。其中使用的A.I.技术能更好地理解搜索意图。谷歌声称在搜索引擎遇到之前从没有见过的搜索需求这种特殊情况时,这项技术就会变得尤其有用。

谷歌作为搜索引擎巨头宣称在他们的算法中这是第三重要的排名因素,所以这项排名影响因素变得尤其重要。这些发展表明A.I.技术可能在2016年及以后变得更加重要。

随着Google和其他搜索引擎更好地将机器学习融入他们的算法中,他们就能开发出一套智能算法来了解用户的搜索需求,通过反馈给客户最合适的站点给予客户最佳的客户体验。

为了适应这个改变,品牌在技术层面上需要关注结构化数据。结构化数据标记例如schema.org网站上的schema标记,可以通过精确描述页面结构而不是借助爬虫来帮助网站与搜索引擎沟通。另外,这也帮助搜索引擎更加准确地展示这个网站。

在过去,缺失或不准确的结构化数据标记经常会被直接忽视或者被视为对品牌绩效有很小的影响。当搜索引擎变得越来越智能化,搜索引擎也会越多地依赖于这些额外的数据,如果不能正确地利用这些数据将会对网站的效能有很大的影响。

当使用schema.org中的标记时,品牌应该结合使用Google提供的站长工具来确保能够正确使用这些结构化标记。结构化数据检测工具帮助品牌能够容易且准确地在网页上添加相关内容。品牌应该确保它们在整个网站使用的标记是连贯的,尤其是诸如视频之类内容丰富的网站要素,它们使用的标记更要保持连贯性。结构化数据标记帮助网页摘要随时都可以出现,比如视频搜索结果。这可以使网站在搜索引擎的搜索结果页面更能吸引用户,从而提高网站的点击率。

6.链接仍然处于公众关注的中心

令网站和用户都感到极其苦恼的垃圾链接问题,将在未来的搜索引擎技术优化中得以解决。企业为自身发展会仔细看看现在的链接文件,找出类似网页的反向链接数目的突然增长这样的异常现象。对品牌而言,集中精力获得反向链接也同样重要,因为反向链接会对网页有积极的影响。

那些拥有极佳声誉的网站的链接可以积极影响其反向链接的网站,所以企业需要获得这些网站的链接。可靠的网站都知道在网页里创建链接到其他网站就代表自己信任这个网站,所以这些网站仅仅会创建它们觉得符合网站用户的价值观以及满足质量要求的网站链接。所以,创建一个高质量的反链接文件就意味着需要关注:

(1)为访问者提供高价值的内容;

(2)创建一个设计优良、容易掌控的网站;

(3)通过社交宣传网站内容获得营销力和声望;

(4)搜寻高质量网页上的特邀文章。

7.网站布局页将更加重要

目前以显示参与度将占据主导地位的特征。在竞争激烈的内容战中,品牌不得不致力于提高用户参与度来维持用户对网站的兴趣,并且使用户进入到网站,推动转化。像网站布局这样的网站特征对企业从现代化内容战中冲出重围十分重要。当用户在网站中找不到他们想要的信息时,他们可能就单击回上一级搜索页面,或更换其他搜索引擎,这样网站就会因用户找不到他们想要搜寻的东西而丢失了约50%的潜在销售量。未来网站需要首先为访问者优化网站布局和转化方式,从而让访问者很容易掌控这个网站。而且企业需要监测你的网站数据,关注访问者在整个网站的访问流程。

未来搜索引擎将以用户需求为导向,向着更加人性化、智能化发展,并随着科技发展逐步成为移动设备、家居设备、电器、机械等多个领域中必不可少的技术支持。