虚拟数字人主流技术架构
1970年,日本机器人专家森政弘曾提出一个名为“恐怖谷理论”(uncanny valley)的假设,用来形容人类与他们相似到特定程度的机器人的排斥反映。简言之,如果一个实体“不够拟人”,那么它的人类特征就会显眼,并且容易辨认,产生移情作用;但如果一个实体足够你人,那么它的非人类特征就会成为显眼的部分,使人类观察者产生一种古怪的感觉。
这个理论同样适用于虚拟数字人。虚拟数字人是目前元宇宙赛道商业化程度最高的领域,但也是高技术壁垒行业。能否具备虚拟数字人批量和高质量生产能力是核心壁垒,领先企业将在元宇宙产业中领先并获得倍增效应。
虚拟数字人的制作涉及许多技术领域,从整体架构上来说,虚拟数字人存在“五横两纵”的技术架构。“五横”指的事虚拟数字人制作、交互的五大核心技术,包括人物生成、人物表达、合成显示、感知识别、分析决策等。“两纵”指的是虚拟数字人2D或3D的不同形态。虚拟数字人3.0一般指的事3D形态的智能型数字人。
人物生成:2D虚拟数字人为平面形象,不涉及人物生成技术,而3虚拟数字人展示的是3D虚拟数字人展示的3D立体形象,需要使用三维建模技术生成数字形象。
人物表达:人物表达中的语音生成和动画生成指的是基于文本生成对应的语音和与之相匹配的动画。
合成显示:合成显示指的是音视频合成显示技术能够将语音和动画合成视频,形成完整的显示内容。
感知识别:感知识别指的是通过语音语义识别、人脸识别、动作识别等技术识别用户的意图,并据此决定接下来的语音和动作。
分析决策:分析决策指的是虚拟数字人可以根据自身知识库对对话进行管理,即根据用户的交互反馈决定接下来的行为。
事实上,并不是所有的虚拟数字人都有感知识别和分析决策能力。例如一些用于新闻播报的虚拟主播,可能只会涉及人物生成、人物表达和显示合成三方面的技术,导入新闻播报的内容后,虚拟主播能够完成新闻播报的工作,却不能和人们进行交互。
同时,一些额外结合了感知识别、分析决策等能力的虚拟数字人则显得更加智能,他们能够依据语音语义识别、人脸识别、动作识别等技术识别人们的状态,并依据强大的知识库做出合理的应对。例如,一些银行、政府办事大厅中使用的虚拟数字人可以自然地和人们进行交互,并能够以专业的知识为人们提供咨询服务。
虚拟数字人的武大金丝狐涵盖了虚拟数字人从初步制作到完成的核心技术,正是这些技术的融合,才造就了会说、会动,甚至能够和人们自然交互的虚拟数字人。

