简介:LivePortrait由快手科技等联合开发,实现表情姿态极速迁移,广泛应用于娱乐、VR等领域。其采用创新方法提升模型泛化性、可控性和实用性,为用户带来高效灵活的面部生成体验。
在当今这个数字化快速发展的时代,人工智能技术正以前所未有的速度改变着我们的生活,特别是在媒体和娱乐领域。数字人作为新兴技术的代表,正逐步成为连接现实与虚拟世界的桥梁。而在这一领域,LivePortrait技术的出现无疑为数字人解决方案注入了新的活力。
LivePortrait是由快手科技、中国科学技术大学和复旦大学强强联合、共同开发的项目。它的核心功能是将驱动视频的表情和姿态迁移到静态或动态人像视频上,生成极具表现力的视频结果。这一技术的问世,不仅在技术上取得了重大突破,更在用户体验上带来了革命性的改变。用户只需简单操作,就能将一张静态图片或视频中的人物形象,赋予生动逼真的表情和姿态,仿佛赋予了数字人真正的生命。
LivePortrait之所以能够实现如此惊人的效果,离不开其背后强大的技术支撑。它采用了一种创新的方法,突破了传统基于隐式关键点框架的局限,实现了计算效率与可控性的完美平衡。通过精心设计的训练策略,LivePortrait使用了高达6900万帧的高质量训练数据,结合视频和图片的混合训练方法,能够更准确地捕捉和模拟面部动作。此外,升级的网络结构和优化的动作建模,进一步提升了生成图像的自然度和真实感。
在模型训练方面,LivePortrait采用了两阶段的训练方法。第一阶段为基础模型训练,旨在提升模型对面部关键特征和表情的识别能力。通过收集大量的面部图像数据,并进行预处理和特征学习,模型能够涵盖多种面部表情、不同的光照条件以及多样的人种特征。第二阶段则聚焦于提高模型在具体应用中的表现,特别是如何将捕获的表情和姿态贴合到另一个人的面部上。通过贴合训练和重定向调整,模型能够处理不同面部结构之间的差异,并进行适当的调整以确保迁移后的表情看起来自然逼真。
LivePortrait的另一大创新是其隐式关键点的运用。这些关键点被视为面部混合变形(Blendshape)的有效隐式表示,为面部动画提供了更精细的控制。基于此,LivePortrait引入了贴合(stitching)和重定向(retargeting)模块,这两个模块采用轻量级的MLP网络,不仅提升了可控性,而且几乎不增加计算成本。这一设计使得LivePortrait在保持高效性的同时,也具备了出色的泛化能力。
在性能表现上,LivePortrait同样令人瞩目。在RTX4090GPU上,其单帧生成速度可达12.8毫秒。通过进一步优化,如使用TensorRT技术,预计其生成速度有望达到10毫秒以内。这一速度不仅超越了许多现有的基于扩散模型的方法,更显示了LivePortrait在实时应用中的巨大潜力。
LivePortrait的潜在应用领域广泛,包括但不限于娱乐产业、虚拟现实以及远程教育和会议等。在电影、视频游戏和在线娱乐中,它可以用于角色的表情动态制作,提高生产效率和视觉效果。在虚拟现实领域,LivePortrait能够提升虚拟现实体验的真实感,通过真实的人类表情和姿态增加用户的沉浸感。此外,在远程教育和会议中,它还能改善视频通信的互动性和表达性,使远程交流更加自然和高效。
值得一提的是,LivePortrait的相关技术已在快手的诸多业务中完成落地,如快手魔表、快手私信、快影的AI表情玩法以及快手直播等。这些应用不仅验证了LivePortrait技术的可行性和实用性,也为其在未来的广泛应用奠定了坚实的基础。
作为数字人解决方案的重要组成部分,LivePortrait技术的出现无疑为数字人的发展注入了新的动力。它不仅提升了数字人的表现力和互动性,也为用户带来了更加丰富和多样的娱乐体验。随着技术的不断进步和应用领域的不断拓展,我们有理由相信,LivePortrait将在未来发挥更加重要的作用,引领数字人技术走向更加美好的未来。
此外,在探索数字人技术的道路上,千帆大模型开发与服务平台也展现出了巨大的潜力和价值。作为一款专业的模型开发与服务平台,千帆大模型能够为用户提供高效、便捷、定制化的模型开发服务。结合LivePortrait技术,千帆大模型可以进一步提升数字人的表现力和互动性,为用户带来更加出色的数字人体验。因此,在构建数字人解决方案时,千帆大模型开发与服务平台无疑是一个值得考虑的选择。