音频文件转写-提交任务
更新时间:2025-04-18
将大批量的音频文件异步转写为文字。适合音视频字幕生产、批量录音质检、会议内容总结、录音内容分析等场景,一般12小时内返回识别结果。
如您要合成语音的文本量较小,同时对时效性要求较高,可以使用短语音识别 或 短语音识别极速版
POST
https://aip.baidubce.com/rpc/2.0/aasr/v1/create
调用分为两个步骤:
- 根据音频url、音频格式、语言id以及采样率等参数创建音频转写任务,获取task_id参数。
- 根据task_id的数组批量查询音频转写任务结果。
本文档以下内容主要介绍如何创建任务,查询结果请参考音频文件转写-查询结果
权限说明
调用本能力需要使用API Key进行鉴权认证。获取及使用API Key的流程请参考:APIKey鉴权说明文档
请求参数
Headers 参数
除公共头域外,还包含以下特殊头域
Content-Type
string
application/json
可选
authorization
string
使用API Key鉴权方式时,将API Key或短期API Key放在此处。注意需要在API Key信息前加上 Bearer 。示例: Bearer bce-v3/ALTAK-DaIdq27UJ9Y2UEDIWx1EF/1c511d0576aee39sd59fd73983749109qq8ciq37
可选
Body 参数
format
string
音频格式,包括["mp3", "wav", "pcm","m4a","amr"]。音频要求单声道,编码 16bits 位深
必选
pid
integer
语言类型,80001(中文语音近场识别模型极速版), 80006(中文音视频字幕模型,1737(英文模型)
必选
rate
integer
采样率,固定填入16000
必选
smooth_task_list
integer
文本后处理分功能选取,0为全开,1为标点,2为数字转化阿拉伯,3为语气词删除
可选
switch_nlp_censor
integer
文本敏感词过滤开关,0为关闭,1为开启,开启后敏感词会变为*
可选
switch_nlp_smooth
integer
文本后处理开关,0关闭,1开启
可选
请求结构
POST https://aip.baidubce.com/rpc/2.0/aasr/v1/create
Authorization: API Key String
Content-Type: application/json
{
"speech_url": "https://platform.bj.bcebos.com/sdk%2Fasr%2Fasr_doc%2Fdoc_download_files%2F16k.pcm",
"format": "pcm",
"pid": 80001,
"rate": 16000
}
示例代码
请求示例
curl --location --request POST 'https://aip.baidubce.com/rpc/2.0/aasr/v1/create' \
--header 'Authorization: Bearer bce-v3/ALTAK-*********/614fb**********' \
--header 'Content-Type: application/json' \
--data-raw '{
"speech_url": "https://platform.bj.bcebos.com/sdk%2Fasr%2Fasr_doc%2Fdoc_download_files%2F16k.pcm", ##音频文件的url
"format": "pcm", ##文件格式
"pid": 80001, ##识别模型id,80001为中文语音近场识别模型
"rate": 16000 ##采样率,固定填入16000
}'
返回响应
Headers 参数
除公共头域外,无其它特殊头域
返回参数
log_id
string
用于问题排查,一般可忽略
可选
task_status
string
任务状态, Running转写中 Success转写成功 Failure 转写失败
可选
task_id
string
任务id,用于获取识别结果,请妥善保存
可选
error_code
integer
错误码
可选
error_msg
string
错误信息
可选
响应示例
# 创建成功
{
"log_id": 12345678,
"task_status": "Created",
"task_id": "234acb234acb234acb234acb" #注意保存该id,用于后续请求识别结果
}
# 创建失败,缺少参数
{
"error_code": 336203,
"error_msg": "missing param: speech_url",
"log_id": 5414433131138366128
}
错误码
接口错误码
error_code | error_msg | 对应接口 | 描述 |
---|---|---|---|
336200 | internal error | 1,2 | 内部错误,注意task_id类型非字符串 |
336201 | unknown task id | 2 | 未知task id |
336202 | invalid param: task_ids | 1,2 | 无效参数值 |
336203 | missing param: ‘param_name’ | 1,2 | 缺少必要参数 |
336204 | Open api total request limit reached’ | 1,2 | 请开通付费,购买调用时长资源 |
336212 | invalid json | 1,2 | 请求数据为非法json |
336213 | missing header: 'header_name' | 1,2 | 缺少必要header |