目录

  • 1 导论:高科技与艺术的互动
    • 1.1 科学与艺术的定义
    • 1.2 高科技时代的艺术定位
    • 1.3 泛艺术时代的科技定位
    • 1.4 科技艺术一体化时代的历史演变
  • 2 人工智能生成内容概述
    • 2.1 创造内容与人工智能生成内容
    • 2.2 人工智能生成绘画
  • 3 人工智能艺术及其未来
    • 3.1 人工智能艺术之初体验
    • 3.2 人工智能艺术的理论解读
  • 4 人工智能绘画与设计师
    • 4.1 什么是AI绘画
    • 4.2 设计师与AI绘画工具的互动
    • 4.3 AIGC应用背景下设计师该如何革新
  • 5 虚拟数字人
    • 5.1 什么是虚拟数字人
    • 5.2 数字人发展概述
    • 5.3 数字人的典型特征及其制造过程
    • 5.4 数字人市场前景与应用价值
    • 5.5 虚拟数字人产业生态
  • 6 大模型时代的机遇与挑战
    • 6.1 重新认识知识
    • 6.2 重新认识变革
    • 6.3 重新认识设计
  • 7 人工智能艺术教育的观念与路径
    • 7.1 技术革命带来的观念变革
    • 7.2 人工智能技术让艺术回归意义
    • 7.3 人工智能对设计的加持
    • 7.4 创意与审美成为设计内核
    • 7.5 设计教育如何应对AIGC的变革
  • 8 生成式人工智能带来的绘画与设计变革
    • 8.1 AIGC对游戏行业的影响
    • 8.2 AIGC对设计类课程的影响——以游戏概念设计为例
    • 8.3 初步认识人工智能绘画
    • 8.4 人工智能绘画伴随的常见问题
  • 9 虚拟数字人3.0的核心技术框架
    • 9.1 主流技术架构
    • 9.2 基础软硬件支撑体系
    • 9.3 从0到1创建一个虚拟数字人
  • 10 元宇宙
    • 10.1 从Web1.0到Web3.0
    • 10.2 元宇宙的六大主要特征
  • 11 交流与分享
    • 11.1 生成式人工智能应用市场前景
    • 11.2 从计算机角度看AIGC
    • 11.3 AIGC与人工智能三要素
    • 11.4 百度文心一格AI绘图入门
    • 11.5 网易有道AI绘画测试
    • 11.6 AIGC应用背景下的设计教学思考
    • 11.7 人工智能与环境设计
  • 12 AIGC应用导论
    • 12.1 关于AI对话的一个思维工具
    • 12.2 什么是transformer
    • 12.3 什么是扩散模型?
    • 12.4 AI数据集是什么
主流技术架构

虚拟数字人主流技术架构

1970年,日本机器人专家森政弘曾提出一个名为“恐怖谷理论”(uncanny valley)的假设,用来形容人类与他们相似到特定程度的机器人的排斥反映。简言之,如果一个实体“不够拟人”,那么它的人类特征就会显眼,并且容易辨认,产生移情作用;但如果一个实体足够你人,那么它的非人类特征就会成为显眼的部分,使人类观察者产生一种古怪的感觉。

这个理论同样适用于虚拟数字人。虚拟数字人是目前元宇宙赛道商业化程度最高的领域,但也是高技术壁垒行业。能否具备虚拟数字人批量和高质量生产能力是核心壁垒,领先企业将在元宇宙产业中领先并获得倍增效应。

虚拟数字人的制作涉及许多技术领域,从整体架构上来说,虚拟数字人存在“五横两纵”的技术架构。“五横”指的事虚拟数字人制作、交互的五大核心技术,包括人物生成、人物表达、合成显示、感知识别、分析决策等。“两纵”指的是虚拟数字人2D3D的不同形态。虚拟数字人3.0一般指的事3D形态的智能型数字人。

人物生成2D虚拟数字人为平面形象,不涉及人物生成技术,而3虚拟数字人展示的是3D虚拟数字人展示的3D立体形象,需要使用三维建模技术生成数字形象。

人物表达:人物表达中的语音生成和动画生成指的是基于文本生成对应的语音和与之相匹配的动画。

合成显示:合成显示指的是音视频合成显示技术能够将语音和动画合成视频,形成完整的显示内容。

感知识别:感知识别指的是通过语音语义识别、人脸识别、动作识别等技术识别用户的意图,并据此决定接下来的语音和动作。

分析决策:分析决策指的是虚拟数字人可以根据自身知识库对对话进行管理,即根据用户的交互反馈决定接下来的行为。

事实上,并不是所有的虚拟数字人都有感知识别和分析决策能力。例如一些用于新闻播报的虚拟主播,可能只会涉及人物生成、人物表达和显示合成三方面的技术,导入新闻播报的内容后,虚拟主播能够完成新闻播报的工作,却不能和人们进行交互。

同时,一些额外结合了感知识别、分析决策等能力的虚拟数字人则显得更加智能,他们能够依据语音语义识别、人脸识别、动作识别等技术识别人们的状态,并依据强大的知识库做出合理的应对。例如,一些银行、政府办事大厅中使用的虚拟数字人可以自然地和人们进行交互,并能够以专业的知识为人们提供咨询服务。

虚拟数字人的武大金丝狐涵盖了虚拟数字人从初步制作到完成的核心技术,正是这些技术的融合,才造就了会说、会动,甚至能够和人们自然交互的虚拟数字人。