互动方式 |
语音对话 |
用户通过语音通话的方式与大模型互动,大模型理解用户意图,给出语音答复。 |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
|
视频理解 |
用户开启摄像头持续推送视频流与大模型互动,大模型对视觉内容进行理解,输出理解内容,支持视频流问答,以及指导用户完成复杂任务,例如下棋、做饭等。 |
✅ |
|
|
|
|
|
|
数字人对话 |
用户与数字人进行互动对话,大模型输出的内容通过数字人的讲话、动作等传递给用户,为用户提供更加真实的互动体验。 |
✅ |
✅ |
✅ |
|
✅ |
|
|
图片理解 |
用户通过发送图片、提问自动上传图片方式与大模型互动,大模型采用语音、文本回答。 |
✅ |
|
✅ |
|
|
|
ASR |
VAD时长 |
当用户停止说话时,ASR将等待一段时间再将文本内容提供给大模型,确保短暂的停顿不会结束用户讲话,支持自定义VAD时长 |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
|
输入语言 |
支持中英文输入 |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
|
语音字幕 |
将用户的语音转文字后,可以将文字内容实时传给客户端,展示用户说话的语音字幕 |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
大模型 |
开场白 |
支持设置开场白,进入通话后会主动与用户打招呼 |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
|
角色人设 |
支持设置大模型角色人设 |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
|
用户位置 |
支持设置用户位置,在沟通语境中会使用设置的位置 |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
|
多轮对话 |
默认记忆15轮历史对话。大模型根据对话内容持续跟进话题,并准确把握对话上下文语境,理解隐含意思,给出恰当回复,顺畅与用户进行多轮交互,保证对话连贯。 |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
|
大模型回复字幕 |
大模型输出文字内容后可以实时传给客户端,展示大模型回复的语音字幕 |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
|
Function Call |
用户与智能体互动的过程中,可以说出特定指令以调用特定功能,比如【拨打电话】、【调大音量】等,支持根据业务需求自定义配置Function Call |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
|
互动指令 |
已预置一些互动指令,如暂【停止讲话】/【恢复讲话】、【关闭自动打断】/【开发自动打断】、【设置人设】、【设置输出语言】等,提升用户体验 |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
|
接入第三方大模型 |
系统已预置大模型服务,也支持切换第三方大模型服务,包括百度千帆、阿里百炼、通义千问、豆包大模型、腾讯云LKEApp等 |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
|
有声资源 |
支持音乐、故事、相声 |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
|
成语接龙 |
用成语的最后一个字作为下一个成语的第一个字,进行成语接龙的游戏。 |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
|
脑筋急转弯 |
用户出脑筋急转弯让大模型猜,或者大模型出脑筋急转弯用户猜 |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
|
猜谜语 |
支持与大模型一起玩猜谜语 |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
|
飞花令 |
支持与大模型一起玩飞花令,用户与大模型轮流说出含有指定关键字的诗句,且关键字在诗句中的位置逐轮推进,无法及时接出合规诗句就算输 |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
TTS |
输出语言 |
支持中文或英文输出 |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
|
音色 |
支持切换不同的音色 |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
|
接入第三方TTS |
系统已预置TTS服务,支持切换成第三方TTS服务,包括百度、火山、讯飞 |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
音频增强 |
智能打断 |
可以通过语音快速打断语音播报,并对新一轮的问题进行回复,支持关闭 |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
|
AI降噪 |
通过端侧和服务端的AI降噪算法,有效识别并消除常见的尖锐声、键盘声等非人声噪声,有效提升ASR识别准确率,避免噪音误打断 |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
|
声音增益 |
智能识别人声,对人声做自动增益,人声更清晰 |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
|
回声消除 |
有效杜绝回声、啸叫问题 |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
|
VAD增强 |
检测到用户停止说话后,快速将ASR转出的文本发送给大模型,有效降低端到端延时 |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |
多平台支持 |
互动SDK |
支持多个端SDK:Andriod、iOS、Web、小程序、Linux、RTOS,其中RTOS已适配:乐鑫、杰理、ASR、移远 |
✅ |
✅ |
✅ |
✅ |
✅ |
✅ |