接入语音端到端语音模型

更新时间：2026-01-06

一、说明

1、端到端语音模型相对传统互动模型的区别在于：

传统互动模型的传输链为 :音频->ASR-TEXT-大模型->TEXT->TTS->音频
端到端语音模型的传输链为 :音频->端到端语音模型->音频
端到端语音优势为延时低，对话更自然，但识别精度和可控性不如三段式（ASR—LLM-TTS）

二、接入步骤

1、创建智能体时，（请求头域见服务端API） config字段携带如下参数，即可开启端到端语音模型

Plain Text

1{
2  "e2ellm_mode":"audio_to_audio",   //必填，目前只支持audio_to_audio模式
3  "e2ellm_sample_rate":24000,       //必填，目前只支持24000
4  "e2ellm_prompt":"你是一个算命助手",  //选填，用户根据自己的业务需要选填
5  "e2ellm_vcn": 8003                //选填，目前只支持8003（默认音色）、8014、8008、8021 四种音色
6}

评价此篇文章

有帮助没帮助

声纹使用最佳实践

多语言接入

百度智能云

RTC 实时音视频

RTC 实时音视频

接入语音端到端语音模型

一、说明

二、接入步骤