功能指引
更新时间:2025-11-28
多模态实时互动融合语音、图像、文本等多种输入输出方式,结合实时通信与大模型理解能力,实现低延时、自然流畅的人机交流。广泛应用于智能硬件,如AI眼镜、AI玩具、AI小家电等场景,打造沉浸式智能体验。以下为指引
1、正式使用:开通服务、购买资源、创建互动应用、创建function call、创建声音复刻、license使用、音色列表
2、附加能力
| 功能名称 | 功能说明 |
|---|---|
| 多语言 | 语种:英语、日语、西班牙语、俄语、韩语、越南语、德语、法语、阿拉伯语、印尼语、泰语、马来语。方言:广东话、四川话、苏州话 |
| 地图 | 实现查询导航信息、发起导航、搜索周边点位 等和地图能力相关的问询,并通过客户端地图交互,完成对应需求 |
| 声音复刻 | 上传10-30s的音频及文本文件复刻音色 |
| 内容资源播放 | 播放音乐和故事 |
| 视觉理解 | 用户通过摄像头推送视频流或者图片文件的方式与大模型互动,大模型对图像内容进行实时理解, 并结合语音的意图,输出分析内容回复。支持拍照识万物、多轮问答等场景。 |
| 声纹识别 | 通过声音自动确认您的身份,交互更个性 |
| 云端翻译 | 实时语音与文本的高速双向翻译 |
更多功能见 功能特性
3、大模型
| 功能名称 | 功能说明 |
|---|---|
| 端到端语音模型 | 持端到端模型的语音互动,支持选择文本输出或者语音输出;适用于闲聊场景 |
| 人设撰写 | 人设可以设定模型回复规范、回复风格等,自定义人设可以参考人设撰写最佳实践 |
| functioncall撰写 | 语音互动过程中,可以通过函数调用的方式调用外部特定功能,比如【拨打电话】、【调大音量】等,支持API或者控制台方式自定义Function Call |
| 对话记录下载 | 支持下载对话记录 |
| 标签消息 | 自定义标签内容不通过TTS播报,如表情信息、动作信息等 |
4、开发者参考:服务端API、客户端SDK、快速集成、开放服务协议、userserver服务端部署
