适用于近场短语音交互,如手机语音搜索、聊天输入等场景。 支持上传完整的录音文件,录音文件时长不超过60秒,实时返回识别结果。 调用流程 创建账号及应用: 在 ai.baidu.com 控制台中,创建应用,勾选开通 “语音技术”—“短语音识别”、“短语音识别极速版” 能力。获取AppID、API Key、Secret Key,并通过请求鉴权接口换取 token ,详细见 “ 接入指南 ”。
vop.baidu.com/server_api dev_pid 语言 模型 是否有标点 备注 1537 普通话(纯中文识别) 语音近场识别模型 有标点 支持自定义词库 1737 英语 英语模型 无标点 不支持自定义词库 1637 粤语 粤语模型 有标点 不支持自定义词库 1837 四川话 四川话模型 有标点 不支持自定义词库 自训练平台 请求地址: http://vop.baidu.com/
否 dev_pid 参数列表 dev_pid 语言 模型 是否有标点 备注 1537 普通话(纯中文识别) 语音近场识别模型 有标点 支持自定义词库 1737 英语 英语模型 无标点 不支持自定义词库 1637 粤语 粤语模型 有标点 不支持自定义词库 1837 四川话 四川话模型 有标点 不支持自定义词库 返回数据参数详情 参数 类型 是否一定输出 描述 err_no int 是 错误码 err_msg
70105; // Interrupted system call 中断的系统调用 int ErrorCodeWeakConnection_EINTR = -70004; // Connection timed out 连接超时 int ErrorCodeWeakConnection_ETIMEDOUT = -70110; /** * 推流过程中,遇到服务器网络错误导致推流失败 * 收到此错误后
16k;5为pcm-8k;6为wav(内容同pcm-16k); 注意aue=4或者6是语音识别要求的格式,但是音频内容不是语音识别要求的 自然人发音 ,所以识别效果会受影响。
可能是音频质量过差,不清晰,或者是空白音频。 有时也可能是pcm填错采样率。如16K采样率的pcm文件,填写的rate参数为8000。
每次请求合成的文本建议 120GBK 以内,如需更长文本转换可使用长文本在线合成。 合成的文件格式为 mp3,pcm(8k及16k),wav(16k),具体见aue参数。 若您需要其它格式,音频文件的转换方法请参考 “语音识别工具”=>“音频文件转码” 一节 本文档描述了使用语音合成服务REST API的方法。 多音字可以通过标注自行定义发音。格式如:重(chong2)报集团。
接口能力 接口名称 接口能力简要描述 语音识别 将人类的语音中的词汇内容转换为计算机可读的输入,例如按键、二进制编码或者字符序列 支持的语音格式 原始 PCM 的录音参数必须符合 16k 、8k采样率、16bit 位深、单声道,支持的格式有:pcm(不压缩)、wav(不压缩,pcm编码)、amr(压缩格式)。
从网络问题中快速恢复:分块上传支持断点续传,可以将由网络错误而导致的上传产生的影响减至最低。 不需要确认Object的大小:在分块上传的场景下,用户可以不用关心Object的大小以及大小可能带来的上传失败场景。 支持流式上传文件。 备注:详情请见 BOS-上传object 。 此外,我们还提供了bce-bos-uploader工具帮助您实现客户端直传BOS。