接入语音端到端语音模型
更新时间:2025-11-21
一、说明
1、端到端语音模型相对传统互动模型的区别在于:
- 传统互动模型的传输链为 :音频->ASR-TEXT-大模型->TEXT->TTS->音频
- 端到端语音模型的传输链为 :音频->端到端语音模型->音频
- 端到端语音优势为延时低,对话更自然,但识别精度和可控性不如三段式(ASR—LLM-TTS)
二、接入步骤
1、创建智能体时,(请求头域见服务端API) config字段携带如下参数,即可开启端到端语音模型
Plain Text
1{
2 "e2ellm_mode":"audio_to_audio", //必填,目前只支持audio_to_audio模式
3 "e2ellm_sample_rate":24000, //必填,目前只支持24000
4 "e2ellm_prompt":"你是一个算命助手", //选填,用户根据自己的业务需要选填
5 "e2ellm_vcn": 8003 //选填,目前只支持8003(默认音色)、8024、8008、8021 四种音色
6}
