语音技术

    简介

    简介

    百度短语音识别可以将60秒以下的音频识别为文字。适用于语音对话、语音控制、语音输入等场景。

    • 接口类型:通过 REST API 的方式提供的通用的 HTTP 接口。适用于任意操作系统,任意编程语言
    • 接口限制:需要上传完整的录音文件,录音文件时长不超过60秒。浏览器由于无法跨域请求百度语音服务器的域名,因此无法直接调用API接口。
    • 支持音频格式:pcm、wav、amr、m4a
    • 音频编码要求:采样率 16000、8000,16bit 位深,单声道(音频格式查看及转换

    语言及模型设置

    支持中文普通话(能识别简单的常用英语)、英语、粤语、四川话识别。通过在请求时配置不同的pid参数,选择对应模型,详见请求说明dev-pid参数表格

    调用流程

    1. 创建账号及应用:在ai.baidu.com控制台中,创建应用,勾选开通”语音技术“-”短语音识别、短语音识别极速版“能力。获取AppID、API Key、Secret Key,并通过请求鉴权接口换取 token ,详细见“接入指南”。
    2. 创建识别请求:POST方式,音频可通过JSON和RAW两种方式提交。JSON方式音频数据由于base64编码,数据会增大1/3。其他填写具体请求参数 ,详见 ”请求说明“。
    3. 短语音识别请求地址:http://vop.baidu.com/server_api
    4. 返回识别结果:识别结果会即刻返回,采用 JSON 格式封装,如果识别成功,识别结果放在 JSON的“result”字段中,统一采用 utf-8 方式编码。详见”返回说明“。

    示例Demo代码

    示例代码见: https://github.com/Baidu-AIP/speech-demo

    包含通过bash_shell,C,Java,Python,Php,Postman进行API请求的相关示例demo代码。

    上一篇
    产品价格
    下一篇
    请求说明