课程门户-章节详情

人工智能与艺术设计

王宏飞

1 导论：高科技与艺术的互动
- 1.1 科学与艺术的定义
- 1.2 高科技时代的艺术定位
- 1.3 泛艺术时代的科技定位
- 1.4 科技艺术一体化时代的历史演变
2 人工智能生成内容概述
- 2.1 创造内容与人工智能生成内容
- 2.2 人工智能生成绘画
3 人工智能艺术及其未来
- 3.1 人工智能艺术之初体验
- 3.2 人工智能艺术的理论解读
4 人工智能绘画与设计师
- 4.1 什么是AI绘画
- 4.2 设计师与AI绘画工具的互动
- 4.3 AIGC应用背景下设计师该如何革新
5 虚拟数字人
- 5.1 什么是虚拟数字人
- 5.2 数字人发展概述
- 5.3 数字人的典型特征及其制造过程
- 5.4 数字人市场前景与应用价值
- 5.5 虚拟数字人产业生态
6 大模型时代的机遇与挑战
- 6.1 重新认识知识
- 6.2 重新认识变革
- 6.3 重新认识设计
7 人工智能艺术教育的观念与路径
- 7.1 技术革命带来的观念变革
- 7.2 人工智能技术让艺术回归意义
- 7.3 人工智能对设计的加持
- 7.4 创意与审美成为设计内核
- 7.5 设计教育如何应对AIGC的变革
8 生成式人工智能带来的绘画与设计变革
- 8.1 AIGC对游戏行业的影响
- 8.2 AIGC对设计类课程的影响——以游戏概念设计为例
- 8.3 初步认识人工智能绘画
- 8.4 人工智能绘画伴随的常见问题
9 虚拟数字人3.0的核心技术框架
- 9.1 主流技术架构
- 9.2 基础软硬件支撑体系
- 9.3 从0到1创建一个虚拟数字人
10 元宇宙
- 10.1 从Web1.0到Web3.0
- 10.2 元宇宙的六大主要特征
11 交流与分享
- 11.1 生成式人工智能应用市场前景
- 11.2 从计算机角度看AIGC
- 11.3 AIGC与人工智能三要素
- 11.4 百度文心一格AI绘图入门
- 11.5 网易有道AI绘画测试
- 11.6 AIGC应用背景下的设计教学思考
- 11.7 人工智能与环境设计
12 AIGC应用导论
- 12.1 关于AI对话的一个思维工具
- 12.2 什么是transformer
- 12.3 什么是扩散模型？
- 12.4 AI数据集是什么

什么是transformer

GPT的全称叫做Generative Pre-trained trandformer.

Generative代表生成，Pre-trained代表预训练，trandformer代表网络结构。

这个trandformer可以说是AI最重要的网络架构

，它让GPT走入了真正的大众视野，也支撑起了

整个的大语言模型。今天就讲一下trandformer

的基础原理。包括它怎么去处理语言，解决序列

建模，甚至去推导一下公式，让你不再只是去听

说trandformer，而是真正的去懂它。

我们都知道，语言，它是一个序列。所谓序列，

就是每一个词的意义，都可能依赖上下文。比如

这句话，我以为今天要放假了，老师说，别做梦

了。这句话的前后，出现了长距离的语义依赖，

和情绪转折，需要模型去记住，放假这个设想，

以及别做梦了这个否定态度。

在早期的模型里，去处理序列问题，主要是两大

类，一类叫做RNN，循环神经网络；一类叫LSTM

，长短期记忆网络，他们适合天生去处理序列，

但存在三个问题，第一个问题叫做信息遗忘，这

个概念是指序列在逐步处理的时候，早期的概念

会随着实践的推移而慢慢衰减，比如前100个词

的某个细节，到了第200个词的时候，模型可能

就完全忘记了。

第二个概念，叫做并行效率低。传统的RNN模型

，它只能一个词一个词的去处理，当前的这个词

还没处理完时，它还不能去处理下一个词，这就

导致了它在训练和推理过程中，他的速度非常慢

，尤其是在长序列任务里面，他的问题格外明显

。

第三个问题呢，就是长距离的依赖弱。尽管LSTM

引入了记忆机制，但它在记忆远距离关系词的时

候，依然很弱，比如要让模型理解前面是原因，

后面是结果，但它呢只能捕捉局部的上下文，很

难去捕捉全局的上下文。

因此trandformer的提出和出现，正是为了解决

这三个问题。

第一，它用self-attention去替代循环的结构

，让当前的词能够去看到其他所有的词，不再受

距离的限制。第二个，它完全是基于矩阵运算，

能够去高度的并行，支持GPU的大规模并行训练

。第三，它通过多层的堆叠，去捕捉复杂的语义

信息，实现对长文档的全局建模能力。

trandformer的架构呢，可以看成是由相同的多

个层堆叠而成的，每个模块呢，包含三个大的核

心组件。第一个叫做词向量嵌入和位置编码，第

二个叫多头的自注意力机制，第三个叫前馈的神

经网络加残差连接。

经过这三个组件以后，它才最后得到一个输出。

那我现在，给大家详细去拆解下这每一个组件的

内部逻辑。

trandformer和传统的RNN，它的最大不同在于

，它的词是没有顺序的，所有的词，都是平行的

，去送入模型的。比如一句话，我爱AI。它会转

成三个向量，因为这些词是平行地输入模型，模

型是不知道顺序的，所以，我们需要去加上位置

编码，位置编码呢，通常是由正弦函数或余弦函

授去得到的，它为每个位置去生成一个向量，代

表这个位置的特征。最终的输入呢，就是xinput

等于X的嵌入向量，加上位置编码。

第二个组件，叫做self-attention。它是

trandformer最核心最灵魂的模块，每个词都是

通过QKV来进行信息的交换。首先，会有三个额

外的参数矩阵，把原始的输入X转换成QKV，然后

会通过Q*K的点积的形式，去判断每个词之间的

相似度，判断当前词应该去关注谁。这一步，可

以让每个词去看见其他的词，并根据语义的相关

性去进行加权组合，更直观的去描述的话，Q就

代表每一个词，它都在问，我应该去关注谁，而

K呢，就代表一个词在回答。你应该去注意我吗

，V呢，就是Value,如果你关注我，那你就参考

这个信息。

还是这个例子，我爱AI。

它前面可能还有其他的文字，下面也有其他的文

字，模型会让爱，它只关注在我和AI身上。而不

会去关注其他词。

最后，多头的注意力就是指我有很多的自注意力

模块，每个模块，关注的是不同的信息，比如，

这个模块，关注的是我，这个模块，可能关注在

语法上，这个模块，可能关注在上下文上，这个

模块，可能关注在语言的类型上。

通过拆解不同的自注意力模块，以及让每一个模

块去关注不同的类型，来提升我整个模型对于任

务的建模和表达能力。进而来提升模型的泛化能

力。

经过完自注意力已有，我们会进入前馈的神经网

络，前馈的神经网络的公式可以写成这样，FFN

X=我的激活函数，X*W1+b,再乘以我的参数，最

后加上一个偏置，另外，也会通过残差连接和层

归一化，来提升模型的稳定性。

残差连接呢，主要是跳过路径，来加快我的梯度

传播。层归一化呢，主要是保证我的训练稳定。

这三个，就是我一个子什么是transformer的模

块。

最终的输出呢，可能会给到下一个什么是

transformer block。也可能会进入输出层，进

行生成或者判别等任务。

之前，我们一直在说，GPT是由什么是

transformer构成的，那接下里，我们来讲一讲

GPT的架构。

GPT不是使用完整的Encoder-Decoder的结构，

而是只保留了什么是transformer的Dcoder部分

，我们叫做Decoder-only，也就是说，它不再

是输入再去生成输出，而是通过一个自回归的形

式，逐词去生成序列。比如给定前n个词，去预

测n+1个词，但是我之前有提到过，什么是

transformer的自注意力机制，它是默认每个词

都能看到其他位置的词的，这对翻译或者分类的

任务，可能是没有问题的，但对于生成的任务，

可能会有很大的问题。如果你想生成一句话，叫

我喜欢看电影，当模型生成我喜欢的时候，它就

不应该看到看和电影，否者，这就不是生成了，

而是一种作弊，那怎么让模型实现不去看到未来

呢，这个过程的核心，就是掩码自注意力，也可

以叫因果注意力。我用一个表来给大家讲清楚，

因果注意力的一个实现方式。

假设一句话，我喜欢看电影，有这4个字表示，0

表示我，1表示喜欢，2表示看，3表示电影。

纵向序列呢，代表我当前在处理的词，横向序列

呢，代表我当前处理的词，它能够看到的词是多

少。

0我，它只能看到的就是我，打×的就是它看不

到的信息，也就是被他给遮住的信息，1呢，就

能看到我和看，2呢，看我就能看到我喜欢看，3

呢，电影，它能够看到所有的前面的词。

那它怎么实现呢，就是把这个×给设成负无穷大

，那经过自注意力的时候，经过softmax，它的

输出会自动变成0，这样就完全忽略了未来词的

影响，同时，也还是能够去保证矩阵处理的形式

，不影响它的并行效率。

最后，我们再总结一下

为什么是transformer会这么强？主要是分成4

块，第一块，并行效率快；它是完全的矩阵操作

的，可以用GPU高效的去做并行；第二块，它的

全局建模能力强，任意两个词都能相互注意，第

三块，它的架构通用，能用于文本、图像、视频

、语音，真正意义上的去实现了跨模态；第四，

它也完成了标准化，像GPT Diffusion Vit这些

，都是靠着transformer能够起飞。

所以，我觉得transformer就是AI世界的一个发

动机，给所有的智能应用去提供强大的动力。它

是AI架构的摩尔定律时刻，虽然不是一步到位的

通用智能，但它是踏上AGI的最关键的一步，

图片预览