王莹莹

1 模块一信息技术基础
- 1.1 导学
- 1.2 任务一掌握信息表示方法
- 1.3 任务二了解信息前沿技术
- 1.4 任务三培养信息素养
2 模块二文档处理
- 2.1 导学
- 2.2 任务一制作红头文件通知
- 2.3 任务二产品说明书排版
- 2.4 任务三制作合同
- 2.5 任务四制作邀请函
- 2.6 任务五制作简历
3 模块三电子表格
- 3.1 导学
- 3.2 任务一员工信息表数据制作
- 3.3 任务二疫情监测人员信息登记及统计
- 3.4 任务三产品销售情况统计
- 3.5 任务四产品销售情况分析
4 模块四演示文稿
- 4.1 导学
- 4.2 任务一人工智能基础知识教学演示文稿创建
- 4.3 任务二人工智能技术应用演示文稿美化
- 4.4 任务三人工智能技术应用演示文稿放映
5 模块五人工智能基础
- 5.1 导学
- 5.2 任务一人工智能基础
6 模块六计算机视觉
- 6.1 导学
- 6.2 任务一人脸表情识别
- 6.3 任务二人脸美颜
- 6.4 任务三物体识别与检测
7 模块七自然语言处理入门
- 7.1 导学
- 7.2 任务一随机文本生成·
- 7.3 任务二上下文的重要性
- 7.4 任务三智能句子生成·
- 7.5 任务四看图说话
8 模块八智能模型应用
- 8.1 导学
- 8.2 任务一创建推荐系统
- 8.3 任务二制作智能导航·
- 8.4 任务三生成模型
- 8.5 任务四应用聚类方法

任务四看图说话

1 思维导图
2 微课
3 PPT课件
4 章节测试
5 拓展阅读
6 话题互动
7 电子教材

01 【思维导图】模块七05看图说话.png

图像描述（image captioning）深入解析

转自知乎https://zhuanlan.zhihu.com/p/358127578，作者：Mr.Jian

1. CNN+LSTM

首先说说图像描述（image caption）是解决什么问题？用简单的话就是说，输入给模型一张图像，模型输出是一句能够描述图像场景的文本句子。
比如下面那张“鸟”的图片，模型就会输出 “a bird flying over a body of water.” 至于是中文的还是英文的，就取决于手头的数据集了。

下面进入正题，之前写过的一篇文章介绍了LSTM的原理，这篇来说说LSTM怎么处理图像描述（image caption）问题的。不懂的小伙伴可以看一下这个链接

我们要知道图像描述涉及到两种不同模态的信息，一个是图像，一个就是描述文本，它不像目标检测、图像分割、图像识别等只涉及图像，或者自然语言处理中像文本生成、自动摘要、预训练模型等只涉及到了文本，所以说如何让模型有效进行图像与文本信息的交互是非常关键的。

2. CNN+LSTM+注意力

接下来，我们再说一说 “Show, Attend and Tell: Neural Image Caption Generation with Visual Attention” 这篇论文，这个论文是在之前说那篇 “Show and Tell: A Neural Image Caption Generator” 的基础上引入一个注意力模块，也就是论文题目中多了一个 “Attend”，所以说“Show, Attend and Tell”这篇论文的关键就在于对注意力模块的理解。

首先来从直觉上理解这个注意力，它的作用就是模型在每个时间步生成单词的时候，模型会关注这个单词所对应的图像区域。比如下图 “狗” 的照片，模型在生成 “dog” 这个单词时，模型会着重关注图像中 “狗” 的区域，所以说下图中 “狗” 的区域要比其他地方要来的明显点。

好了，从直觉上理解了注意力模块，那么我们来说说这个注意力模块的数学表达公式是什么，知道它的输入和输出是什么，就明白它在做一件什么事了。

3. Faster-RCNN+双层LSTM+注意力

再接着，说一说 Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering 这篇论文。这篇论文有两个点：

用 Faster-RCNN 中 RoIPooling 层之后的区域特征作为图像区域特征，因为这样做比 CNN 提取的特征更加完整，信息特征全面。可以看下图，左图是 CNN 提取，相当于把图片分成一块块，白色框起来的“人”被分成一块块，每一块在计算机的表示就是一个向量，而右图中，经过 RoIPooling 之后，白色框起来的完整的“人” 被表示成一个向量，因此后者比前者表达的信息更加完整。
用2个LSTM去做描述文本的生成模型

4. Transformer+LSTM

上面谈到的只是LSTM和CNN组合，在这部分来说说Transformer和LSTM的结合，我们从”Attention on Attention for Image Captioning“这篇论文说起。对Transformer不熟悉的读者可以参考

http://jalammar.github.io/illustrated-transformer/jalammar.github.io/illustrated-transformer/

我们来思考一下，Transformer这个结构最先提出是在“Attention is all you need”这篇论文中，在被用来处理机器翻译，那么图像描述问题是不是可以当做机器翻译的问题，将图片场景内容“翻译”成一句文本描述，那么图片的信息可以当做Transformer中encoder的输入（源语句），图片的文本描述可以当做decoder的输入（目标语句），那么就可以完美的应用Transformer去解决，有很多工作证明了它是非常有效的，比LSTM的组合性能更好。

既然可以用Transformer结构，那么可不可以在它的基础上加入LSTM呢？首先我们想一想，Transformer中的encoder是用来编码源语句的高层表示，然后这个高层表示的特征向量送入decoder去解码出对应的目标语句，也就是decoder具有生成文本的功能，而LSTM也具有文本生成的功能，因此自然而然想到可否用LSTM替换掉decoder，用LSTM去解码呢？答案是可以的。

1. CNN+LSTM

2. CNN+LSTM+注意力

3. Faster-RCNN+双层LSTM+注意力

4. Transformer+LSTM

图片预览