简介
更新时间:2024-05-29
短文本在线合成
百度短文本在线合成服务,基于HTTP请求的REST API接口,将文本转换为可以播放的音频文件。
每次请求合成的文本建议120GBK以内,如需更长文本转换可使用长文本在线合成。
合成的文件格式为 mp3,pcm(8k及16k),wav(16k),具体见aue参数。 若您需要其它格式,音频文件的转换方法请参考“语音识别工具”=>“音频文件转码”一节
本文档描述了使用语音合成服务REST API的方法。
- 多音字可以通过标注自行定义发音。格式如:重(chong2)报集团。
- 目前只有中英文混合这一种语言,优先中文发音。示例: " I bought 3 books” 发音 “three”; “ 3 books are bought” 发音 “three”; “我们买了 3 books” 发音“三”
接口更新说明
日期 | 更新内容 | 更新前的历史状态 |
---|---|---|
2021-06-10 | POST 方式提交文本不超过120 GBK字节,即约60个汉字或者字母数字记为1次请求。每超过120个GBK字节则多记1次计费调用。 建议每次请求合成的文本不超过120个GBK。 |
POST 方式提交文本小于2048个中文字或者英文数字(5003、5118发音人需小于512个中文字或者英文数字) |
2020-07-21 | 新增2个精品音库,在线合成音库总数扩充到11个,满足更多应用场景 | 在线合成音库总数为11个 |
2019-07-12 | 增加精品音库per接口,在线合成音库总数扩充到9个,满足更多应用场景 | 只有基础音库per接口 |
2018-07-14 | 添加 aue 参数,可以下载wav和pcm格式 |
只能下载mp3格式 |
2018-07-14 | tex参数兼容一次urlencode, 推荐两次urlencode |
tex参数 urlencode一次,会出现如“+”等特殊字符不能正确发音 |
2018-07-14 | 使用POST方式提交,合成限制2048个汉字。使用GET方式提交(不推荐), 拼接的url长度不超过1000个字符。注意:过长的文本将需要更多的请求耗时。 如果对时间敏感,请请自行按照标点切割,可以采用多次请求的方式。 |
tex参数限制512个汉字 |
浏览器跨域
目前合成接口支持浏览器跨域。 跨域demo示例: https://github.com/Baidu-AIP/SPEECH-TTS-CORS 由于获取token的接口不支持浏览器跨域。因此需要您从服务端获取或者每隔30天手动输入更新。
长文本在线合成
长文本在线合成接口可以将10万字以内文本一次性合成,异步返回音频。支持多种优质音库,将超长文本快速转换成稳定流畅、饱满真实的音频。适用于阅读听书、新闻播报等客户。
应用场景
阅读听书:万字小说一次性合成,可反复播放,给用户带来更流畅、更稳定的听书体验
新闻播报:长篇稿件批量快速合成,释放播音员人力,保障新闻生产时效性
产品优势
- 一次性合成:支持一次性合成10万字,无需拆分文本和拼接音频,并支持下载到本地,大幅节省开发成本
- 优质音库:为您提供极致拟人、情感饱满的语音合成效果
- 合成速度快:5万字最快仅需5分钟,合成速度业界领先水平
产品功能
- 支持中文普通话、简单中英文混读
- 支持 mp3-16k、mp3-48k、wav、pcm-8k、pcm-16k 等多种音频格式和采样率
- 支持自定义语速、语调、音量调节
- 支持多音字标注发音,格式如:重(chong2)报集团。
- 支持文本分段,段落间增加1s停顿
- 支持主动查询、自动回调两种方式获取结果