基础软硬件支撑体系
虚拟数字人的打造离不开软硬件一体化结合。其中,硬件主要包括显示器、光学器件、传感器和芯片,软件包括建模、驱动、渲染等方面的软件。这一层技术门槛比较高,是目前科技巨头相对集中的一层,如英伟达的GPU,AI芯片和Oniverse,而一般的科技公司难以支付高昂的研发成本。
在硬件方面,显示设备是虚拟数人成像的载体,包括手机、电脑、AR、VR等设备;光学器件是虚拟数字人基础硬件中负责成像的部件,具有将虚拟物体叠加到正是环境显示的功能;传感器相当于虚拟数字人的五官,是实现人机交互的核心部件;芯片是虚拟数人完成数据处理、数据传输、内容分析等行为的核心部件。
在软件方面,虚拟数字人需要建模、驱动、渲染等多方面软件的支撑。
1.建模
随着元宇宙和虚拟数字人产业的兴起,虚拟建模技术也在快速更新迭代。目前,市面上的虚拟数字人多为卡通形象虚拟人,例如二次元形象。另一类虚拟数字人则更侧重写实性,具有更强的柔和力和真实感。创建这类虚拟数字人的建模技术主要分为静态扫描建模和动态光场建模。
在静态扫描建模方面,相机阵列扫描建模是人物建模的主要方式。得益于拍照式相机阵列扫描建模的发展,毫秒级的高速拍照扫描已经实现,能够更好地满足虚拟数字人建模的需求。
动态广场建模技术包括人体动态三维建模、光场成像梁个部分。人体动态三维建模主要通过摄像机阵列采集动态数据,重建几何外形、纹理、材质、运动信息等。光场成像中的光场可以存储空间中光线的方向和角度,并据此产出场景中人物表现的反射和阴影,这为人体三维建模提供了更丰富的图像信息。
相比静态建模技术,动态光场建模不仅可以重建人物模型,还能够获取动态人物模型数据,重现不同视角下人物的光影效果。动态光场建模技术可以忽略材质,直接采集现实世界的光线,再实时渲染出正是的动态人物模型。
近年来,微软、谷歌、英特尔等公司都在积极展开虚拟数字人建模方面的研究。其中,谷歌打造了Relightable全身人像容积摄影方案,将结构光、动态建模、重光照技术融合到了一起,包含了模型重建、动作重建、光照重建等人物建模的全部功能。
在建模工具上,目前主流的有三种技术。第一种是基于Unity3D的建模技术,用户可以通过几何图形构建任意虚拟人物形象,但这种技术需要比较密集的人力投入。第二种是基于Metahuman的捏人技术,该技术可以让用户在没有任何技术背景的前提下,打造出高度逼真的虚拟形象。但如果用户想100%还原真人,则需要更多对艺术极少的把握和训练。第三种是基于实物扫描的建模,主要应用于构建物体模型,比如艺术展品和机器模型等,常用的设备包括Shining3D公司的激光扫描仪。实物扫描技术可以以微米级的进度真实复刻实物,但这种技术因其昂贵的成本并不能满足元宇宙时代大规模C端普及的需求。因此,这些技术普遍存在周期长、学习和使用门槛高、设备让鬼等痛点。
2.驱动
在驱动方面,智能合成、动作捕捉等是虚拟数字人当前主要的动作生产方式。2D、3D虚拟数字人都能够实现嘴型动作的智能合成,其基本逻辑是建立从输入文本到输出应聘和视觉信息的关联映射,对采集到的文本到语音和嘴型视频、嘴型动画的数据进行模型训练,得到一个输入任何文本都能够驱动嘴型的模型,再通过模型合成视频。
除了嘴型之外的动作,眨眼、点头、微笑等动作目前往往是通过某个脚本方案将预录好的视频或动作进行循环播放来实现的。例如许多虚拟数字人的肢体动作就是通过在某个位置出发预录好的肢体动作数据驱动的。
将捕捉采集的动作迁移至虚拟数字人是虚拟数字人动作生成的主要方式,其中的关键技术就是动作捕捉。根据实现方式的不同,动作捕捉技术分为光学动作捕捉、惯性动作捕捉、基于计算机视觉的动作捕捉等。当前,最常用的两种动作捕捉就是光学动作捕捉和惯性动作捕捉。
光学动作捕捉通过对目标上特定观点的跟踪实现对动作的捕捉。最常用的是基于马克点的光学动作捕捉,即在目标身上粘贴上能够反射红外光的马克点,根据摄像头对马克点的追踪,实现对目标动作的捕捉。这种方式能够实现高精度的动作捕捉,但对环境要求较高且造价高昂。
惯性动作捕捉基于IMU(inertial Measurement Unit,惯性测量单元),完成对目标动作的捕捉。其基本逻辑是把集成了加速度计、陀螺仪、磁力计的IMU固定在目标的骨骼节点上,再对测量数值进行计算,最终完成动作捕捉。这种方式价格相对较低,但动作捕捉的精度较低,会随着连续使用时间的延长产生累积误差。
3.渲染
渲染技术的本质是对图形数据的计算和输出。在硬件能力提升和算法突破的基础上,渲染技术也有了明显的进步,一种更为先进的渲染技术PBR(Physically BasedRendering,基于物理的渲染技术)开始出现,大大提升了虚拟数字人的真实性。
在PBR技术出现之前,3D渲染引擎更多的关注的事关注实现3D小狗,并不太关注3D模型的真实感。PBR是基于真实世界成像规律模拟的一种渲染技术的集合,能够更真实地反映表面反射、折射光线的强弱,使渲染效果更加真实。
而实时渲染技术的突破更加强了虚拟数字人的真实性,超写实的虚拟数字人得以出现。实时渲染指的事图形数据的实时计算和输出,其输出的每一帧画面都源于对实际环境光源、相机位置、材质参数等的实时计算。早期的实时渲染只能选择抽象和简化过的渲染算法,画面质量欠佳。随着硬件能力的提升和算法的突破,渲染速度、渲染效果、渲染画面的分辨率都得以提升,在虚拟数字人的实时渲染方面,超写实的虚拟数字人足以以假乱真。
虚拟数字人的打造离不开硬件与软件的结合,在硬件与软件的双重支持下,虚拟数字人才得以成像,完成更多的动作并越来越逼真。未来,随着硬件基础的提升和软件技术的进步,虚拟数字人的制作技术也会不断精进,虚拟数字人整体呈现的效果也会进一步提升。

