音频文件转写极速版API-邀测

更新时间：2026-05-26

接口描述

支持提取视频、音频文件中的语音内容，极速返回识别结果及时间戳，适用于对实时性有一要求的内容分析、字幕生产、录音转写场景。(本接口处于邀测阶段，请提交合作咨询申请测试）

请求说明

请求接口：https://aip.baidubce.com/rest/2.0/speech/publiccloudspeech/v1/asr/topspeed

HTTP 方法：POST

Headers参数：

参数	参数值	是否必须
Content-Type	application/json	是

Body参数如下：

参数名称	类型	是否必须	对外状态	备注
access_token	str	必须		通过 API Key 和 Secret Key 获取的 access_token，参考Access Token获取
rate	int	必须		音频对应的采样率，目前只支持传16000
cuid	str	必须		用户的唯一标识，调用时自己保证唯一即可
dev_pid	int	必须		调用的转写模型，不同模型有不同的转写效果，目前只支持传80006
speech	str	与speech_url二选一		对视频或音频文件进行base64编码后的结果，音频文件最多支持一小时的时长，整体文件不能超过500M。支持pcm、wav、mp3、m4a、mp4、mov等常见音视频文件格式
speech_url	str	与speech二选一		可使用百度云对象存储进行音频存储，生成云端可外网访问的url链接。音频文件最多支持一小时的时长，整体文件不能超过500M。支持pcm、wav、mp3、m4a、mp4、mov等常见音视频文件格式
enable_subtitle	int	非必须	根据常见字幕规则返回识别结果及对应时间戳	取值范围：[0,1,2] 0：关闭字幕功能（默认） 1：开启字幕功能 2：开启字幕模式，返回字粒度时间戳其他取值：报错
subtitle_punc	int	非必须	字幕结果中是否有标点	取值范围：[0,1] 0：过滤字幕中的标点（默认） 1：不过滤字幕中的标点其他取值：报错仅当字幕模式开启时生效
smooth_text	int	非必须	文本顺滑（标点优化、数字格式优化、口语过滤）	取值范围：[0（不开启文本顺滑，默认）, 1（开启文本顺滑）]
smooth_text_param	list	非必须	具体开启的文本顺滑功能，仅当smooth_text=1时生效	取值范围：[1（标点），2（数字），3（口语）] 列表中参数必须为int类型，自定义所需功能，例如：传入[1, 2, 3]，开启标点+数字+口语功能传入[1, 2]，开启标点+数字传入[3]，开启口语
filter_sensitive	int	非必须	敏感词过滤	取值范围：[0（不开启敏感词过滤，默认）, 1（开启敏感词过滤）]

Body请求示例：

Plain Text

1{
2    "access_token":"24.578xxxxxxxxxxxxxxxxx", 
3    "rate": 16000,
4    "cuid": "baidu_asr",
5    "dev_pid": 80006, 
6    "speech": "UklGRqAfQgBXQVZFZm10IBAAAAABAAEAgD4AAAB9AAACABAATEl…" 
7    "enable_subtitle":1,
8    "smooth_text": 1,
9}

返回说明

返回参数：

参数名称	类型	是否必须	备注	其他信息
result	str []	非必须	完整的转写结果，取元素0即是对应的文字	item 类型: string
error_code	int	非必须	错误码
error_message	str	非必须	错误信息
audio_duration	int	非必须	音频整体时长，单位：毫秒
detailed_result	object []	非必须	每一句转写详情，含时间戳等信息	item 类型: object
+ res	str []	非必须	每句转写的文字结果，取元素0即是对应的文字	item 类型: string
+ end_time	int	非必须	文字结束时间，单位：毫秒
+ begin_time	int	非必须	文字开始时间，单位：毫秒
+ sn	str	非必须	分句转写的id，反馈问题时使用
+ corpus_no	str	非必须	整段转写的id，反馈问题时使用

返回示例：

Plain Text

1{
2    "error_code":0,
3    "error_message":"请求成功",
4    "audio_duration":1300,
5    "result":["欢迎使用百度语音,"],
6    "detailed_result":[
7        {
8        "begin_time":0,
9        "corpus_no":"632690ff-40e8-4e59-9964-a381e4c64818_ws",
10        "end_time":1300,
11        "res":["欢迎使用百度语音,"],
12        "sn":"632690ff-40e8-4e59-9964-a381e4c64818_ws_ws_0","words_info":[]
13        },
14    ……]
15 }

评价此篇文章

有帮助没帮助

音频文件转写API

语音质检API

百度智能云

语音技术

语音技术

音频文件转写极速版API-邀测

接口描述

请求说明

返回说明