使用产品 语音合成 支持与交流 AI社区 教学视频 文档中心 SDK下载 语音合成技术让您可以随时随地“听”文档 价值成果 百度语音合成技术可对大篇幅文档进行语音播放,支持多种情感化朗读方式、语速设置等,合成体验清晰、流畅、自然,带来非常好的用户体验。 案例故事 核心诉求 随着科技的不断进步,移动阅读因其便捷性逐渐成为主流阅读方式,满足用户在不同时间与空间中的阅读需求。
音频参数概念 采样率: 百度语音识别一般仅支持16000的采样率。即1秒采样16000次。 位深: 无损音频格式pcm和wav可以设置,百度语音识别使用16bits 小端序 ,即2个字节记录1/16000 s的音频数据。 声道: 百度语音识别仅支持单声道。 以16000采样率 16bits 编码的pcm文件为例,每个16bits(=2bytes)记录了 1/16000s的音频数据。
低延时直播和标准直播区别 低延时直播是传统标准直播在超低延时场景下的延伸,比传统直播延迟更低,为观众提供毫秒级延迟的直播观看体验,显著提升直播的互动性,常用于电商直播、在线教育、体育赛事直播、秀场直播等场景。
用量及历史调用查询 用量查询 登录百度智能云控制台- 语音能力引擎 页面 在概览页-服务列表查看用量及余量: 历史调用查询 登录百度智能云控制台-语音能力引擎- 监控报表 页面 在监控报表页面选择产品服务、应用、API、时间段等选项进行查询: 注意事项: 数据约有15分钟延迟 查询调用量时,选择API接口请定位到具体接口,例如:语音技术-短语音识别-中文普通话(语音技术产品计算单位有次数、时间、字数三种
新建AipSpeech AipSpeech是语音识别的Java客户端,为使用语音识别的开发人员提供了一系列的交互方法。
参数名 类型 是否必需 对外状态 取值范围 speech_url str 是 音频url 可使用 百度云对象存储 进行音频存储,生成云端可外网访问的url链接,音频大小不超过500MB,url长度不超过2048字节 format str 是 音频格式 [ mp3 , wav , pcm , m4a , amr ]单声道,编码 16bits 位深 pid int 是 语言类型 80001(中文语音近场识别模型极速版
如何用可视化工具调用 如何使用 Postman 调用语音技术服务 API 本文提供了通过可视化工具 Postman 调用短文本语音合成 API 的样例,帮助您零编码快速体验并熟悉语音技术服务。 1.
音色列表 页面描述 本页面为调用发音人所属音库、发音人名称、调用per参数等信息。 试听demo 试听demo请点击 发音人详情 音库类型 发音人名称 per参数 场景 支持语言 调用权限 基础音库 度小美-标准女主播 0 资讯 中文/英文 直接调用 基础音库 度小宇-亲切男声 1 对话助手 中文/英文 直接调用 基础音库 度逍遥-情感男声 3 小说 中文/英文 直接调用 基础音库 度丫丫-童声
新建交互类 Baidu.Aip.Speech.Asr是语音识别的交互类,为使用语音识别的开发人员提供了一系列的交互方法。
新建AipSpeech AipSpeech是语音识别的Python SDK客户端,为使用语音识别的开发人员提供了一系列的交互方法。