TANGO开源引领声音驱动全身数字人新时代

简介：东京大学和CyberAgent AI Lab共同研发的TANGO框架，可通过声音驱动视频生成全身数字人，实现高保真度、动作同步的视频制作，为虚拟数字人领域带来革新。

在虚拟数字人技术日新月异的今天，我们见证了从简单的面部和唇形同步到更加复杂的全身动作生成的飞跃。近日，东京大学和CyberAgent AI Lab共同研发的项目TANGO，以其独特的声音驱动视频生成技术，为虚拟数字人领域注入了新的活力。

TANGO框架简介

TANGO是一个基于运动图的检索方法，旨在生成与目标语音音频同步的全身手势视频。它不仅仅局限于头部和上半身的同步，而是能够生成全身的动作，从而实现更加逼真和自然的虚拟数字人表现。这一技术的突破，得益于东京大学和CyberAgent AI Lab的深入研究和创新。

技术原理

TANGO的工作原理相对复杂，但大致可以分为三个主要步骤：

创建有向运动图：首先，TANGO会创建一个有向运动图，将视频帧表示为节点，将有效过渡表示为边缘。这样，每个采样路径都决定了一个特定的播放顺序，为后续的手势检索提供了基础。
音频调节手势检索：接下来，TANGO会利用隐式分层音频运动嵌入空间来检索与目标语音音频匹配的大多数参考视频剪辑。音频调节手势检索模块旨在最小化跨模态特征距离，以找到手势与目标音频最匹配的路径。
生成过渡帧：当原始参考视频中不存在过渡边缘时，TANGO会采用基于扩散的插值网络来生成剩余的过渡帧，并平滑剪辑边界处的不连续性。这样，生成的视频在视觉上会更加自然和流畅。

技术亮点

TANGO的技术亮点在于其能够生成高保真度、动作同步的视频。与传统的数字人项目相比，TANGO不仅支持头部和上半身的同步，还能够生成全身的动作，这在很大程度上提高了虚拟数字人的真实感和表现力。此外，TANGO还采用了先进的CLIP类对比学习方法，进一步提升了跨模态对齐的准确性。

应用前景

随着TANGO技术的不断成熟和普及，我们可以预见其在多个领域的应用前景。例如，在虚拟主持人、虚拟客服、虚拟教师等场景中，TANGO可以生成更加自然和逼真的虚拟数字人形象，提高用户体验和互动性。此外，在娱乐、游戏等领域，TANGO也可以为玩家提供更加丰富的虚拟角色选择和更加真实的游戏体验。

与曦灵数字人的关联

在探讨TANGO技术的同时，我们不妨将其与曦灵数字人进行关联。曦灵数字人作为一款先进的虚拟数字人产品，同样具备高度的真实感和表现力。如果能够将TANGO技术应用于曦灵数字人中，那么无疑将进一步提升其产品的竞争力和用户体验。例如，通过TANGO技术，曦灵数字人可以实现更加自然和流畅的全身动作生成，从而为用户带来更加逼真的虚拟交互体验。

结语

总的来说，TANGO技术的出现为虚拟数字人领域带来了新的机遇和挑战。它不仅提高了虚拟数字人的真实感和表现力，还为多个领域的应用提供了更加广阔的空间。随着技术的不断发展和完善，我们有理由相信，未来的虚拟数字人将会更加智能、更加真实、更加有趣。而这一切的背后，都离不开像TANGO这样的创新技术的支持和推动。