百度智能云

【功能升级】大模型声音复刻,新增自定义音频与流式合成
发布日期:2025-10-20 08:10浏览量:2964次

近日,百度语音大模型声音复刻新增自定义音频复刻功能:无需按照规定文本录音,提供发音人的任意音频,即可实现声音复刻,操作门槛更低、使用更便捷。复刻完成后,新增支持流式文本合成基于websocket协议,用户输入文本的同时,即可同步返回合成的音频数据,达到“边合成边播放”效果。同时,合成语言在中文普通话、英文基础上,新增支持上海话、河南话、四川话、湖南话、贵州话等方言。更加贴合数字人、智能助手、情感陪伴等多种应用场景。点击了解详情>>

 
 
特色优势
  • 超低门槛:无需专业设备与场地任意有声音频即可克隆,极大提升效率,降低使用门槛
  • 精准还原:精准还原音色特点、说话风格、韵律起伏、声学环境
  • 极速复刻:秒级即可完成高品质复刻,精准呈现音色细节,高效逼真
  • 实时合成:实现边输入边播放的效果,完美适配多种实时应用场景
  • 方言合成:支持上海话、河南话、四川话、湖南话、贵州话等方言,还原地道家乡话
 
产品价格

创建音色

  • 按次数包预付费【购买
次数包规格
支持并发
价格(元)
单次单价(元)
50
10
400
8
200
10
1400
7
1000
10
6000
6
5000
10
25000
5
20000
10
80000
4
调用次数
支持并发
价格(元/次)
0-∞
10
8.8
 
在线合成
  • 按字符包预付费【购买
字符包规格(万字)
支持并发
价格(元)
万字符单价(元)
100
10
650
6.5
500
10
3000
6
1000
10
5500
5.5
5000
10
25000
5
10000
10
45000
4.5
调用次数
支持并发
价格(元/万字符)
0-∞
10
7
 
大模型声音复刻体验demo:https://ai.baidu.com/tech/speech/voicecloning