全屏显示专题章节

1.8.2 2.图像识别：人工智能怎样识别生活中的图像

2.图像识别：人工智能怎样识别生活中的图像

对于图像识别来说，在相当长的一段时间内，人工智能的研究都停留在文字层面。比如说，让机器像人一样回答一些书面问题。但是，从现实需要来看，仅让机器处理文字是不能满足需求的，还需要它们能够像人类一样善于视觉处理，识别图案和物体等。

为了让机器能具有人在视觉方面所具有的特征，图像识别一直以来都成为人工智能研发方面的一个重要领域。人们为此编制出了专门的计算机程序来让机器模拟人类图像识别活动，并提出了各种图像识别模型。最初，人们所建立的是模板匹配模型。其方法是，为了识别某个图像，先建立起该图像的模板，存储于机器中。当机器“看见”的图像与记忆中的图像相匹配时，这个图像就被它识别了。比如说，识别“人”这一文字图案，首先将这一图案存入机器“记忆”中，一旦机器发现外界有大小、方位、形状都与记忆中的“人”字完全一致时，这个“人”字就会被它认出来。但是，这种模型在识别图像时，必须是与记忆模板中的图像完全一致时才能被识别，而不能像人类那样，认识一个“人”的图案后，可以认识更多不同形状、大小、方位的“人”字。

针对模板匹配模型的不足，有人提出了原型匹配模型。该模型的理论基础是，在机器存储中，不是安装所要识别的无数个模板，而是从图像中抽象出某些相似性，将其作为原型，来检验所要识别的图像。这就是说，只要找到一个相似的原型，其对应的图像就能被认识。虽然这种模型比模板匹配模型更适宜，但它难以通过计算机程序体现出来。

从应用来说，图像比文字更具有生动、易于理解、有趣和艺术感的特点，还能存储更多记录信息。从技术上来说，图像识别的过程包括图像预处理、图像分割、特征提取和判断匹配等步骤。但是，随着实际需要，人们对图像识别技术的突破变得格外迫切。比如在互联网领域，当信息为文字时，人们可以通过搜索轻易找到所需内容，还可进行任意编辑。但当信息是图片时，就无法做到对图片内容进行检索，这就降低了信息探索的效率。这时，图像识别技术就显得特别重要。

很明显，人们最初借助图像识别技术，主要是用来满足娱乐化的需求。比如一些网站推出的识别功能，目的是让用户找到与他们长相相似的明星。还有一些公司借助图像识别功能来增加游戏玩家的体感。在这个阶段，图像识别技术对人类视觉起辅助和增强的作用，是一种辅助性的工具。就好比将人的视觉外包给了机器一样。其工作原理可简单理解为，人眼获得目标信息，然后转化成机器可理解的关键词；机器通过图像识别技术，担当起了人的外部眼睛的角色；机器将“看到”的图像进行分析后，将分析结果呈现出来。在这一过程中，摄像头就成为解密答案的钥匙。

图像识别技术在经历了工具化、娱乐化阶段后，开始向更高阶段发展。目标就是让机器具有与人类相似的分析、理解和处理等能力。早在1989年，卷积神经网络（CNN）模型就已问世。CNN是深度神经网络，一般具有两个非线性可训练的卷积层和固定卷积层，再加一个全连接层，一共五个以上隐含层。这是深度学习在图像识别领域最早的应用尝试。在小规模图像识别上，CNN取得了当时最好的效果。但是，在大规模图像识别上，CNN取得的效果一直不好。比如对像素很多的图片内容理解，都不理想。到2012年时，图像识别技术取得大踏步前进。这主要得益于算法的提升。

计算能力提升和海量的训练数据，让深度学习模型成功应用于一般图像的识别和理解，不仅大大提升了图像识别的准确性，也避免了抽取人工特征时的时间消耗，还提高了在线计算效率。因此，深度学习方法也就成为图像识别的主流方法。

人的视觉往往与人的体质牵连在一起。比如，当人过度疲劳或看东西时间过长，就会出现暂时性的视觉模糊，以致对看到的事物出现误判断。在这方面，机器视觉相比人的生理视觉来说，优势就体现了出来。而人的判断往往都受环境或心理等因素的影响，主观性非常强，也就会让人在视觉判断上出现偏差。在这些方面，机器视觉就显得更加准确、客观和稳定。从生理角度来看，人的视觉有着天然的局限性。有时，人们看起来感到非常真实的视觉场景，却是一个错觉。只有反馈到人的眼球中心的视觉场景的中间部分，人才能详细地看清楚。偏离中间大约10度，视觉细胞就变得更加分散。因而，人的视觉世界的边缘是无色、模糊的。这也就是人们在经历不同的事情发生时只会关注到其中的一样，而普遍忽视了其他事情发生的原因。在这方面，机器有更多的优势。它们能“记”下视野所及范围内的所有事情，不会像人类那样，在视野所及范围内，只记下自己印象深刻的那一部分。在现实生活中，视频监控是图像识别最广的应用。传统的监控过程是，时刻有人叫提高警惕监视着监控画面，然后依据人的判断来对视频内容作出分析，得出结论。在这一过程中，会因人的疲劳、注意力分散等原因而影响监控的效果。到了人工智能深度学习阶段，图像识别技术日益成熟。这时，机器就可以自行地对视频进行分析判断，及时发现异常情况。由此，就带来了更高的效率和准确度。这种技术被用在反恐领域，而事实证明，机器识别人脸的技术，要远远比人的主观判断优秀。

一旦机器真正具有了视觉，许多人类所不能、不方便或不情愿从事的工作，就都可以让机器去代替完成。目前，图像识别技术在应用上还只是起着导盲犬性质的指引作用。所采取的措施是，通过人工添加标签或注释，帮助机器来理解图片。由此，机器也就无法具有人类一样的视觉。不过，图像识别技术的发展从来没有停止过。随着研究深入和技术进步，未来的图像识别技术所起的不再是导盲犬的作用，而是一个全职管家的作用。到时，人类就会从诸多日常琐事中抽身出来，去从事自己更感兴趣的事。

2015年5月，谷歌公司推出Google Photos。人们称该产品为“人工智能和图片搜索结合后所产生的强大功能”。该产品如果要搜寻一个人，可以搜寻到该人从婴儿时期以来的所有照片。而在搜寻某个品种时，则能找到该品种所对应的照片。

在此前，谷歌公司推出了名为TensorFlow的人工智能平台。该平台提供了强大的图片搜索功能，能够快速将人工智能与图片结合起来。从应用上来看，该平台的推出，将会推动机器学习和人工智能的发展。

Facebook公司在Messenger应用上推出了一项新功能，通过扫描手机相册照片来进行面部识别处理。这项功能的特别之处在于，即使是遮住了脸部，其“面部识别”功能也一样能识别被遮住的面部。这些，都是图像识别技术应用上的新突破。Facebook公司的最终目标是在任何场景下识别出任何人，哪怕是在光线不清晰的情况下。

随着图像识别技术的不断发展，能够具有人一样的视觉、能够理解照片的人工智能将无处不在。届时，真正意义上的类人机器兴许就出现了。