TANGO框架革新数字人生成技术

简介：东京大学与CyberAgent AI Lab联合开发的TANGO框架，通过声音驱动视频生成全身数字人，实现了高保真度、动作同步的视频制作，为数字人领域带来革新。

在数字人技术日新月异的今天，我们已经见证了众多面部和唇形同步的数字人项目。然而，这些项目大多仅支持头像和上半身的同步，对于全身动作的生成仍然是一个挑战。近日，东京大学与CyberAgent AI Lab共同研发的项目TANGO，为我们带来了声音驱动视频生成全身数字人的全新解决方案。

TANGO是一个基于运动图检索方法的框架，旨在生成与目标语音音频同步的全身手势视频。用户只需提供一段肢体动作视频和目标语音音频，TANGO就能将两者合成制作出高保真度、动作同步的视频。这一技术的出现，无疑为数字人领域带来了革命性的变化。

TANGO的工作原理相当复杂，但却非常高效。它首先利用隐式分层音频运动嵌入空间检索与目标语音音频匹配的大多数参考视频剪辑。这些参考视频剪辑为后续的合成提供了基础。然后，TANGO采用基于扩散的插值网络来生成剩余的过渡帧，并平滑剪辑边界处的不连续性。这样，生成的视频不仅动作同步，而且画面流畅自然。

在具体实现上，TANGO通过三个步骤生成手势视频。首先，它创建一个有向运动图，将视频帧表示为节点，将有效过渡表示为边缘。每个采样路径决定所选的播放顺序。其次，音频调节手势检索模块旨在最小化跨模态特征距离，以找到手势与目标音频最匹配的路径。最后，当原始参考视频中不存在过渡边缘时，基于扩散的插值模型会生成外观一致的连接帧。这一系列的步骤确保了生成的视频既符合目标语音音频的节奏和语调，又能够呈现出自然的全身动作。

值得注意的是，TANGO还采用了名为AuMoCLIP的分层联合嵌入管道。音频波形和提取的3D运动被编码在学习的嵌入空间中，其中成对的音频和运动比非成对的样本距离更近。这一设计使得TANGO能够更准确地匹配音频和运动信息，从而生成更加逼真的视频。

在评估方面，TANGO在Show-Oliver和YouTube视频数据集上进行了测试。结果显示，TANGO能够制作逼真的视频，其效果优于最先进的基于生成和检索的方法。此外，TANGO还是第一部在音频和运动模态上展示CLIP类对比学习的作品，同时也是第一个开源运动图和音频驱动的视频生成管道。

除了技术上的创新，TANGO的开源性质也为其在数字人领域的应用提供了广阔的前景。开发者可以基于TANGO框架进行二次开发，创造出更多样化、更个性化的数字人形象。这些数字人形象可以用于虚拟主持人、虚拟客服、虚拟教师等多种场景，为用户带来更加丰富多样的交互体验。

此外，在数字人技术快速发展的背景下，TANGO的出现也为行业树立了新的标杆。它证明了通过声音驱动视频生成全身数字人的可行性，并为未来的数字人技术发展指明了方向。随着技术的不断进步和应用场景的不断拓展，我们有理由相信，数字人将在未来发挥更加重要的作用。

在此，我们也想特别提到一个与TANGO紧密相关的产品——曦灵数字人。作为一款先进的数字人平台，曦灵数字人同样致力于为用户提供高质量的数字人形象和服务。虽然曦灵数字人在技术实现上与TANGO有所不同，但两者都致力于推动数字人技术的发展和应用。未来，随着技术的不断融合和创新，我们有理由期待曦灵数字人与TANGO等先进技术能够共同为数字人领域带来更多的惊喜和突破。

综上所述，TANGO框架的出现为声音驱动视频生成全身数字人带来了全新的解决方案。它不仅在技术上实现了突破，也为数字人领域的应用和发展提供了广阔的前景。我们相信，在未来的日子里，TANGO将继续发挥其重要作用，推动数字人技术不断向前发展。

TANGO框架革新数字人生成技术

最热文章