音频文件转写极速版API-邀测
更新时间:2024-06-03
接口描述
支持提取视频、音频文件中的语音内容,极速返回识别结果及时间戳,适用于对实时性有一要求的内容分析、字幕生产、录音转写场景。(本接口处于邀测阶段,请提交合作咨询申请测试)
请求说明
请求接口:https://aip.baidubce.com/rest/2.0/speech/publiccloudspeech/v1/asr/topspeed
HTTP 方法:POST
Headers参数:
参数 | 参数值 | 是否必须 |
---|---|---|
Content-Type | application/json | 是 |
Body参数如下:
参数名称 | 类型 | 是否必须 | 对外状态 | 备注 |
---|---|---|---|---|
access_token | str | 必须 | 通过 API Key 和 Secret Key 获取的 access_token,参考Access Token获取 | |
rate | int | 必须 | 音频对应的采样率,目前只支持传16000 | |
cuid | str | 必须 | 用户的唯一标识,调用时自己保证唯一即可 | |
dev_pid | int | 必须 | 调用的转写模型,不同模型有不同的转写效果,目前只支持传80006 | |
speech | str | 与speech_url二选一 | 对视频或音频文件进行base64编码后的结果,音频文件最多支持一小时的时长,整体文件不能超过500M。支持pcm、wav、mp3、m4a、mp4、mov等常见音视频文件格式 | |
speech_url | str | 与speech二选一 | 可使用百度云对象存储进行音频存储,生成云端可外网访问的url链接。音频文件最多支持一小时的时长,整体文件不能超过500M。支持pcm、wav、mp3、m4a、mp4、mov等常见音视频文件格式 | |
enable_subtitle | int | 非必须 | 根据常见字幕规则返回识别结果及对应时间戳 | 取值范围:[0,1,2] 0:关闭字幕功能(默认) 1:开启字幕功能 2:开启字幕模式,返回字粒度时间戳 其他取值:报错 |
subtitle_punc | int | 非必须 | 字幕结果中是否有标点 | 取值范围:[0,1] 0:过滤字幕中的标点(默认) 1:不过滤字幕中的标点 其他取值:报错 仅当字幕模式开启时生效 |
smooth_text | int | 非必须 | 文本顺滑(标点优化、数字格式优化、口语过滤) | 取值范围:[0(不开启文本顺滑,默认), 1(开启文本顺滑)] |
smooth_text_param | list | 非必须 | 具体开启的文本顺滑功能,仅当smooth_text=1时生效 | 取值范围:[1(标点),2(数字),3(口语)] 列表中参数必须为int类型,自定义所需功能,例如: 传入[1, 2, 3],开启标点+数字+口语功能 传入[1, 2],开启标点+数字 传入[3],开启口语 |
filter_sensitive | int | 非必须 | 敏感词过滤 | 取值范围:[0(不开启敏感词过滤,默认), 1(开启敏感词过滤)] |
Body请求示例:
{
"access_token":"24.578xxxxxxxxxxxxxxxxx",
"rate": 16000,
"cuid": "baidu_asr",
"dev_pid": 80006,
"speech": "UklGRqAfQgBXQVZFZm10IBAAAAABAAEAgD4AAAB9AAACABAATEl…"
"enable_subtitle":1,
"smooth_text": 1,
}
返回说明
返回参数:
参数名称 | 类型 | 是否必须 | 备注 | 其他信息 |
---|---|---|---|---|
result | str [] | 非必须 | 完整的转写结果,取元素0即是对应的文字 | item 类型: string |
error_code | int | 非必须 | 错误码 | |
error_message | str | 非必须 | 错误信息 | |
audio_duration | int | 非必须 | 音频整体时长,单位:毫秒 | |
detailed_result | object [] | 非必须 | 每一句转写详情,含时间戳等信息 | item 类型: object |
+ res | str [] | 非必须 | 每句转写的文字结果,取元素0即是对应的文字 | item 类型: string |
+ end_time | int | 非必须 | 文字结束时间,单位:毫秒 | |
+ begin_time | int | 非必须 | 文字开始时间,单位:毫秒 | |
+ sn | str | 非必须 | 分句转写的id,反馈问题时使用 | |
+ corpus_no | str | 非必须 | 整段转写的id,反馈问题时使用 |
返回示例:
{
"error_code":0,
"error_message":"请求成功",
"audio_duration":1300,
"result":["欢迎使用百度语音,"],
"detailed_result":[
{
"begin_time":0,
"corpus_no":"632690ff-40e8-4e59-9964-a381e4c64818_ws",
"end_time":1300,
"res":["欢迎使用百度语音,"],
"sn":"632690ff-40e8-4e59-9964-a381e4c64818_ws_ws_0","words_info":[]
},
……]
}