目录

  • 1 导论:高科技与艺术的互动
    • 1.1 科学与艺术的定义
    • 1.2 高科技时代的艺术定位
    • 1.3 泛艺术时代的科技定位
    • 1.4 科技艺术一体化时代的历史演变
  • 2 人工智能生成内容概述
    • 2.1 创造内容与人工智能生成内容
    • 2.2 人工智能生成绘画
  • 3 人工智能艺术及其未来
    • 3.1 人工智能艺术之初体验
    • 3.2 人工智能艺术的理论解读
  • 4 人工智能绘画与设计师
    • 4.1 什么是AI绘画
    • 4.2 设计师与AI绘画工具的互动
    • 4.3 AIGC应用背景下设计师该如何革新
  • 5 虚拟数字人
    • 5.1 什么是虚拟数字人
    • 5.2 数字人发展概述
    • 5.3 数字人的典型特征及其制造过程
    • 5.4 数字人市场前景与应用价值
    • 5.5 虚拟数字人产业生态
  • 6 大模型时代的机遇与挑战
    • 6.1 重新认识知识
    • 6.2 重新认识变革
    • 6.3 重新认识设计
  • 7 人工智能艺术教育的观念与路径
    • 7.1 技术革命带来的观念变革
    • 7.2 人工智能技术让艺术回归意义
    • 7.3 人工智能对设计的加持
    • 7.4 创意与审美成为设计内核
    • 7.5 设计教育如何应对AIGC的变革
  • 8 生成式人工智能带来的绘画与设计变革
    • 8.1 AIGC对游戏行业的影响
    • 8.2 AIGC对设计类课程的影响——以游戏概念设计为例
    • 8.3 初步认识人工智能绘画
    • 8.4 人工智能绘画伴随的常见问题
  • 9 虚拟数字人3.0的核心技术框架
    • 9.1 主流技术架构
    • 9.2 基础软硬件支撑体系
    • 9.3 从0到1创建一个虚拟数字人
  • 10 元宇宙
    • 10.1 从Web1.0到Web3.0
    • 10.2 元宇宙的六大主要特征
  • 11 交流与分享
    • 11.1 生成式人工智能应用市场前景
    • 11.2 从计算机角度看AIGC
    • 11.3 AIGC与人工智能三要素
    • 11.4 百度文心一格AI绘图入门
    • 11.5 网易有道AI绘画测试
    • 11.6 AIGC应用背景下的设计教学思考
    • 11.7 人工智能与环境设计
  • 12 AIGC应用导论
    • 12.1 关于AI对话的一个思维工具
    • 12.2 什么是transformer
    • 12.3 什么是扩散模型?
    • 12.4 AI数据集是什么
什么是扩散模型?

什么是扩散模型?

到底是什么让模型生成文字或者生成视频

?核心是扩散模型,diffusion model

就是像stable diffusion,midjourney这

种AI画师,变成真正的,这么神奇的一个

底层原理。

我们从一个直觉出发。比如,我们现在有

一个全是噪声的图,什么是噪声,比如以

前的老电视,屏幕上有很多雪花点。我们

能不能从这个噪声,一步一步去还原成一

个比较好的图像。

其实,扩散模型,就是基于这个思路,它

有两个过程,第一个呢,就是正向过程,

forward process.它把原始的干净的图

像,一步一步的去加噪声,往里面添加噪

声,然后一步步的变成噪声图像。

还一个,就是逆向过程,reverse 

process.它去训练一个模型,接收噪声

,然后一步步的把这个图像还原成一个真

实的图像。就好像,你把一幅画打成碎片

,然后再慢慢的把它拼回去。拼成一个又

是一个完美的画。所以,直观去看一个模

型,它的一个训练目标就很简单,让他去

学习怎么预测这个图像,或者,让他去学

习怎么预测我加的噪声。但现在,更多的

是预测加噪声。因为我们的图像,信息量

太多了,而预测噪声,可能让模型能够更

快的去学习,以及更快的去收敛。它的

LOSS一般会这么写,损失是它的噪声,我

又一个预测的噪声,因为我们是有真实噪

声的,所以我们会减去正是的噪声,然后

呢对它取一个绝对值,这就是他的LOSS。

我们希望这个LOSS呢足够小,这个就是我

们模型训练的目标。

所以,模型学的呢,就是在每一部棋,或

者说在每一个阶段,我们能够去预测出精

准的要被去除的噪声。当我们这个模型训

练完以后,我们在这里写训练好的模型。

这样,我们就能够用模型去生成图像了。

在这里输入噪声,每一部调用模型,然后

得到我加强的噪声,然后再把这个噪声输

出,那就得到一个更清晰一点点的图像,

然后再预测噪声,再减去原始的预测噪声

,最终就变成一个原始清晰的图。就好像

我们有一个非常大的石头,然后雕塑家一

点一点的把多余石头剔除掉,最后就变成

一个类似思考者的雕像。

另外,要讲一个关键点,它的信息是非常

多的,比如我是一个1024*1024的图像,

那可能有100万个像素点,如果你把它仍

到模型里面,它的整个显存的占用量会非

常大,所以,更直观的考虑是什么呢,就

是把这个图像给压缩成一个小的一个特征

,然后在这个特征上,去做各种的加噪、

去噪,把这个去噪完的特征,再去映射回

原图的1024*1024的图像,这个就叫做

VAE变分自码器,非常经典的结构。党我

们这个VAE足够好,就是它能够把这个图

像给压缩,然后再去重建的时候,那我们

既能够保留我们的扩散模型生图的一个质

量,又能够去加速我训练的效率。

最后,我们再讲一下,我们现在去生图,

生视频,都会去写一个文字,其实在训练

的时候也是一样,我的文字作为额外条件

,但是,我还是由个初始的噪声,然后在

模型训练当中,我既把文字当作输入,把

噪声当作输入给到模型,然后让他去预测

出我下一步要减掉的噪声是什么,从而能

学习到,我的这个文本,可能是我最终的

一个清晰的人,是相关的。

另一个文本呢,DOG可能是可狗相关的,

从而学习人和文本对应的概念,和狗对应

的文本概念。当在文本去做特征提取的时

候,它用的一般是比较经典的clip。

所以,再总结一下,一句话让你记住扩散

模型,就是一个从噪声中去找回原始图像

的去噪过程。

它的强大的地方在于,它的原理是比较简

单的,而且训练是稳定的;第二个,就是

它的可控性强,像文本啊,像草图啊,像

各种其他条件啊,都能够作为条件去引导。

第三个呢,就是他的质量高,失真很少。

所以,在图像生成领域,它是包括在22年

到24年、25年,它是真正的王者。