语音识别极速版 API

简介

将60秒以内的完整音频文件识别为文字,适用于近场短语音交互,如手机语音搜索、聊天输入等场景。输入完整音频文件,输出识别结果文字。

采用流式多级截断注意力模型SMLTA,专有GPU服务集群,识别响应速度及识别准确率极大提升。按调用量计费,免费赠送5万次调用。详情见产品定价文档。

语种

中文普通话

适用范围

任意操作系统,任意编程语言,只要可以对百度语音服务器发起http请求的,均可以使用本接口。

示例代码见: https://github.com/Baidu-AIP/speech-demo

浏览器由于无法跨域请求百度语音服务器的域名,因此无法使用本接口。

语音格式

格式支持:pcm(不压缩)、wav(不压缩,pcm编码)、amr(压缩格式)。推荐pcm
采样率 :16000 固定值。
编码:16bit 位深的单声道。

百度服务端会将非pcm格式,转为pcm格式,因此使用wav、amr会有额外的转换耗时。

音频文件格式转换请参见文档【语音识别小工具\音频文件转码】