探索六款文字语音生成驱动虚拟数字人说话开源项目

作者:demo2024.12.03 18:10浏览量:280

简介:本文介绍了六款能够驱动虚拟数字人说话的开源项目,包括Audio2Face、Write-a-Speaker、AI-generated-characters等,这些项目结合了先进的文本到语音技术和神经网络模型,为创建逼真的虚拟数字人提供了强大的支持。

在人工智能和虚拟现实技术日新月异的今天,驱动虚拟数字人进行自然语言交互已成为可能。这得益于一系列开源项目的出现,它们为开发者提供了强大的工具,使创建逼真、互动性强的虚拟数字人变得更加容易。以下是六款文字语音生成驱动虚拟数字人说话的开源项目,它们各具特色,共同推动着这一领域的发展。

一、Audio2Face

Audio2Face是由FACEGOOD团队开发的一个开源项目,其核心功能是将语音数据转换为面部动画。该项目主要完成Audio2Face部分,而ASR(语音识别)和TTS(文本转语音)部分则可由思必驰智能机器人或其他第三方工具完成。Audio2Face的框架大致可以分为数据采集制作、数据预处理和数据模型训练三个阶段。通过这一项目,开发者可以创建出与语音数据高度同步的面部动画,使虚拟数字人的表现更加自然和逼真。

二、Write-a-Speaker

Write-a-Speaker是一个结合了高保真面部表情和头部运动的开源项目,它致力于实现文本情感、语音节奏和停顿与视觉运动的一致性。该项目包括一个独立于说话人的阶段和一个特定于说话人的阶段。在独立于说话人的阶段,框架设计了三个并行网络,分别从文本中生成嘴巴、上脸和头部的动画参数。而在特定说话人阶段,则利用3D人脸模型引导的注意网络来合成针对不同个体的视频。Write-a-Speaker利用高精度的运动帽数据集,实现了视觉运动和音频之间的真实对应关系。

三、AI-generated-characters

AI-generated-characters是麻省理工学院媒体实验室(MIT Media Lab)开源的一个虚拟角色生成工具。该项目结合了面部、手势、语音和动作领域的人工智能模型,可用于创建各种音频和视频输出。它主要用于音频或视频驱动视频的场景,如保护个人隐私的视频通话、使历史或现代人物栩栩如生等。虽然该项目暂不支持文本驱动视频,但其在音频和视频驱动方面的卓越表现仍使其成为一个值得关注的开源项目。

四、Omniverse Audio2Face

Omniverse Audio2Face是NVIDIA推出的一款基于深度学习AI技术的开源工具。它借助NVIDIA的强大算力,仅需一个音频来源即可快速轻松生成表情丰富的面部动画。Omniverse Audio2Face为开发者提供了一个直观易用的界面,使他们能够轻松地将语音数据转换为逼真的面部动画,从而增强虚拟数字人的表现力和互动性。

五、LiveSpeechPortraits

LiveSpeechPortraits是一个由超过30 fps的音频信号驱动的开源项目,它能够生成个性化的逼真语音头动画。该项目包括深度神经网络、自回归概率模型和图像到图像转换网络三个阶段。通过这三个阶段的处理,LiveSpeechPortraits可以合成高质量的个性化面部细节,如皱纹、牙齿等,并允许显式控制头部姿势。这使得虚拟数字人在进行自然语言交互时能够展现出更加丰富的面部表情和动作。

六、GPT-SoVITS

GPT-SoVITS是一款由RVC-Boss和Rcell共同研究的开源AI语音克隆工具。它支持少量语音转换和文本到语音的音色克隆,并支持中文、英文和日文的语音推理。GPT-SoVITS提供了零样本TTS和Few-shot TTS两种模式,前者仅需输入5秒语音样本即可体验即时文本到语音转换,后者则通过1分钟的训练数据微调模型以提高语音相似度和真实感。此外,GPT-SoVITS还集成了包括语音伴奏分离、自动训练集分割、中文ASR和文本标注在内的WebUI工具,为初学者提供了极大的便利。

产品关联:曦灵数字人

在上述开源项目中,曦灵数字人能够很好地融入其中。曦灵数字人作为一个高度可定制的虚拟数字人平台,能够支持多种语音合成和动画驱动技术。通过结合上述开源项目中的技术,曦灵数字人可以实现更加自然、逼真的语音交互和面部表情动画。例如,利用Audio2Face或Omniverse Audio2Face的技术,曦灵数字人可以实时地将语音数据转换为面部动画;而GPT-SoVITS的音色克隆功能则可以为曦灵数字人提供更加多样化的语音表现。这些技术的结合将使得曦灵数字人在虚拟主播虚拟客服、虚拟导游等场景中发挥出更大的潜力。

综上所述,这六款开源项目为创建逼真的虚拟数字人提供了强大的技术支持。通过结合这些项目中的技术,开发者可以轻松地实现文字语音生成驱动虚拟数字人说话的功能,并为其赋予更加丰富的面部表情和动作。随着技术的不断发展,我们有理由相信虚拟数字人将在未来发挥出更大的作用和价值。