简介:快手在首届中国数字人大会上展示了多模态数字人技术,通过该技术降低内容生产门槛,提高经营效率。快手官方虚拟主播“关小芳”及“快手智播”平台成为亮点。
在近日举办的首届中国数字人大会上,快手作为数字人产业的领军企业,展示了其在多模态数字人技术领域的最新成果。快手视觉生成与互动中心负责人万鹏飞在大会上发表了主旨演讲,详细阐述了多模态数字人技术的创新点及其在各个产业中的应用,揭示了这一技术如何降低内容生产门槛,实现提效经营。
多模态数字人技术,作为快手近年来重点研发的技术之一,已经形成了完备的解决方案。该技术能够根据不同的输入形式,如传感器、文本/音频、视频等,实现多样化的驱动形式。其中,具备完整多模态输入输出能力的多模态数字人,效果上限更高,技术难度也更大。但正是这样的技术挑战,推动了快手在数字人采集建模、绑定、动捕驱动、大模型生成互动、交互渲染等技术领域的全面进步。
在商业化、本地生活、电商、招聘等多元场景中,数字人展现出了巨大的应用潜力。快手官方虚拟主播“关小芳”便是身份型数字人的典型应用。她打通了ASR(语音识别)、VLM(视觉语言模型)、LLM(大型语言模型)等多个自研大模型能力,具备多模态感知、决策、生成能力。其互动延时低于2秒,且支持用户打断,这样的性能表现在快手平台上吸引了超过200万粉丝的关注。在快手财报解读等多种场景中,“关小芳”都展现出了卓越的能力。
除了身份型数字人,快手还针对服务型数字人打造了“快手智播”生成式数字人平台。该平台支持超过1000种数字人形象的生成,用户只需提供3分钟视频素材,就能快速完成个性化定制。此外,平台还融合了语音、图像及大模型等多种人工智能技术,提供了直播/离线视频制作、配套脚本生成、素材管理等能力。用户通过平台可以实现云端实时驱动快速开播,打造7×24小时不间断的直播间,极大地增强了用户的观看体验。
“快手智播”平台的推出,不仅降低了内容生产的门槛,还提高了自主内容生产的效率。相比真人主播的成本,快手生成式数字人每月的投入不足真人的20%,且支持万路以上直播间并发。这样的降本优势使得“快手智播”平台服务的商家数量已破万,数字人直播及短视频日均消耗规模超过2000万。
万鹏飞在演讲中表示,快手将继续大力推动技术创新与产业发展,让多模态数字人更精美、更有智商和情商,为更多数字人应用场景带来更大的业务收益,也为人们的生活带来更多的便利。随着AI大模型时代的来临,快手的多模态数字人技术将不断迭代升级,为数字人产业的未来发展注入新的活力。
总的来说,快手在首届中国数字人大会上展示的多模态数字人技术,不仅体现了其在数字人领域的深厚积累,也展示了其对于未来数字人产业发展的前瞻布局。通过这一技术,快手正在引领内容生产的革新,为数字人产业的未来发展开辟了新的道路。