百度智能云

【功能升级】大模型声音复刻，新增自定义音频与流式合成

发布日期：2025-10-20 08:10浏览量：6759次

近日，百度语音大模型声音复刻新增自定义音频复刻功能：无需按照规定文本录音，提供发音人的任意音频，即可实现声音复刻，操作门槛更低、使用更便捷。复刻完成后，新增支持流式文本合成：基于websocket协议，用户输入文本的同时，即可同步返回合成的音频数据，达到“边合成边播放”效果。同时，合成语言在中文普通话、英文基础上，新增支持上海话、河南话、四川话、湖南话、贵州话等方言。更加贴合数字人、智能助手、情感陪伴等多种应用场景。点击了解详情>>

特色优势

超低门槛：无需专业设备与场地任意有声音频即可克隆，极大提升效率，降低使用门槛
精准还原：精准还原音色特点、说话风格、韵律起伏、声学环境
极速复刻：秒级即可完成高品质复刻，精准呈现音色细节，高效逼真
实时合成：实现边输入边播放的效果，完美适配多种实时应用场景
方言合成：支持上海话、河南话、四川话、湖南话、贵州话等方言，还原地道家乡话

产品价格

创建音色

按次数包预付费【购买】

次数包规格	支持并发	价格（元）	单次单价（元）
50	10	400	8
200	10	1400	7
1000	10	6000	6
5000	10	25000	5
20000	10	80000	4

按调用量后付费【开通付费】

调用次数	支持并发	价格（元/次）
0-∞	10	8.8

在线合成

按字符包预付费【购买】

字符包规格（万字）	支持并发	价格（元）	万字符单价（元）
100	10	650	6.5
500	10	3000	6
1000	10	5500	5.5
5000	10	25000	5
10000	10	45000	4.5

按调用量后付费【开通付费】

调用次数	支持并发	价格（元/万字符）
0-∞	10	7

大模型声音复刻体验demo：https://ai.baidu.com/tech/speech/voicecloning

百度语音现已推出：端到端语音语言大模型、大模型声音复刻、短语音识别标准版、短语音识别极速版、实时语音识别、音频文件转写，短文本在线合成、长文本在线合成、定制音库，呼叫中心实时语音通话、呼叫中心语音质检、呼叫中心音频文件转写等多款语音产品，同时提供有声阅读解决方案、呼叫中心语音解决方案、语音数字大屏、智能语音会议、智能语音指令、语音字幕服务等场景化解决方案，满足各类语音场景需求。提供在线API 、HTTP SDK 、离线SDK 、私有化部署、一体机等多种部署方式，接入便捷、稳定可靠。

上一篇：【重磅上线】「图片篡改检测」开放邀测：AI 智能鉴伪，让卡证、票据、文档伪造无所遁形！

下一篇：【重磅上线】文档解析（PaddleOCR-VL）企业级API服务正式上线

合作咨询

填写您的业务需求，专属客户经理会尽快联系您，提供1对1咨询服务

售后智能助手

智能诊断，快速解决使用问题

更多咨询，请拨打400-920-8999 转 1

体验AI

Web端前往AI能力体验中心

移动端打开百度APP“扫一扫”