GaussianAvatar实现高效数字人建模

简介：CVPR'24开源项目GaussianAvatar，利用3D高斯泼溅技术，实现从单目视频中高效建模人体数字化身并实时驱动，为数字人创建带来革新。

在数字化时代，人体数字化身建模与驱动技术正逐渐成为计算机视觉和图形学领域的热门话题。特别是在元宇宙背景下，快速高效的人体数字化身建模需求日益增长。然而，传统的建模方法往往存在渲染速度慢、建模精度不高等问题，难以满足实际应用的需求。近日，CVPR’24开源了一个名为GaussianAvatar的项目，该项目利用3D高斯泼溅（3D Gaussian Splatting, 3DGS）技术，实现了从单目视频中高效建模人体数字化身并实时驱动，为数字人创建带来了革新。

一、技术背景

数字化身建模是计算机视觉和图形学的重要任务之一，而基于单目视频的人体数字化身建模更是其中的难点。传统的建模方法大多基于神经辐射场（Neural Radiance Field, NeRF），虽然能够呈现出高真实感的渲染质量，但存在渲染速度和建模速度慢的问题。此外，NeRF在反向蒙皮过程中还容易遇到一对多问题，导致初始人体姿态不准，难以解决。

二、GaussianAvatar技术介绍

针对上述问题，GaussianAvatar项目提出了基于可驱动3DGS的人体数字化身建模方法。该方法利用3DGS技术，结合人体模型SMPL/SMPL-X，实现了从单目视频中高效建模人体数字化身并实时驱动。具体来说，GaussianAvatar首先对当前帧估计一个SMPL/SMPL-X模型，并在其表面采样空间点，根据UV图关系存成一张位置UV图。然后，将位置UV图作为动作信号输入到一个位姿编码器，获得动作特征。接着，通过残差相加的方式和一个优化后的特征向量一起输入到高斯参数解码器中，得到标准姿态下的高斯点云。最后，通过线性混合蒙皮公式进行驱动，并最终渲染成当前姿态下的图像。

三、技术细节

可驱动3DGS：可驱动3DGS的本质是将3DGS和人体模型SMPL/SMPL-X进行结合。通过定义一个渲染公式，将3DGS的渲染过程、线性混合蒙皮公式以及高斯点的位置和参数等整合在一起，实现了可驱动的3DGS。
动态高斯参数预测：为了预测高斯点的属性参数，GaussianAvatar设计了一个动态外观网络和一个可优化特征向量。动态外观网络包括了一个姿态编码器U-Net和一个高斯参数解码器MLP。通过该网络，可以学习到动作信号与动态高斯参数的映射关系。
动作联合优化：由于单目人体SMPL估计不准，需要进一步矫正。因此，GaussianAvatar对线性混合蒙皮公式用到的人体姿态进行联合优化。通过对初始动作添加一个可优化残差，实现了对人体动作的优化和矫正。

四、应用前景

GaussianAvatar技术的出现，为数字人创建带来了更多的可能性。它不仅可以应用于虚拟主播、虚拟偶像等领域，还可以拓展到游戏、影视制作、在线教育等多个行业。通过该技术，可以快速高效地生成具有真实感的数字人形象，为用户带来更加沉浸式的体验。

五、产品关联

在GaussianAvatar技术的应用中，曦灵数字人作为一款先进的数字人创建平台，可以与之形成完美的结合。曦灵数字人平台提供了丰富的数字人创建工具和资源，可以帮助用户快速生成高质量的数字人形象。而GaussianAvatar技术则可以为曦灵数字人平台提供更加高效、真实的建模和驱动能力，进一步提升数字人的质量和表现力。例如，在虚拟主播领域，利用GaussianAvatar技术可以快速生成具有真实感的虚拟主播形象，并通过曦灵数字人平台进行直播、互动等操作，为用户带来更加丰富的娱乐体验。