功能指引

更新时间：2025-12-08

多模态实时互动融合语音、图像、文本等多种输入输出方式，结合实时通信与大模型理解能力，实现低延时、自然流畅的人机交流。广泛应用于智能硬件，如AI眼镜、AI玩具、AI小家电等场景，打造沉浸式智能体验。以下为指引

3、附加能力

功能名称	功能说明
多语言	语种：英语、日语、西班牙语、俄语、韩语、越南语、德语、法语、阿拉伯语、印尼语、泰语、马来语。方言：广东话、四川话、苏州话
地图	实现查询导航信息、发起导航、搜索周边点位等和地图能力相关的问询，并通过客户端地图交互，完成对应需求
声音复刻	上传10-30s的音频及文本文件复刻音色
内容资源播放	播放音乐和故事
视觉理解	用户通过摄像头推送视频流或者图片文件的方式与大模型互动，大模型对图像内容进行实时理解, 并结合语音的意图，输出分析内容回复。支持拍照识万物、多轮问答等场景。
声纹识别	通过声音自动确认您的身份，交互更个性
云端翻译	实时语音与文本的高速双向翻译
情绪识别	情绪识别分类标签
记忆	包含短期记忆和人物画像，维度包括基本信息、职业、喜好、兴趣、特长等
对话记录下载	支持下载近7天的对话记录

更多功能见功能特性

4、大模型

功能名称	功能说明
端到端语音模型	持端到端模型的语音互动，支持选择文本输出或者语音输出；适用于闲聊场景
人设撰写	人设可以设定模型回复规范、回复风格等，自定义人设可以参考人设撰写最佳实践
functioncall撰写	语音互动过程中，可以通过函数调用的方式调用外部特定功能，比如【拨打电话】、【调大音量】等，支持API或者控制台方式自定义Function Call
对话记录下载	支持下载对话记录
标签消息	自定义标签内容不通过TTS播报，如表情信息、动作信息等

评价此篇文章

有帮助没帮助

百度智能云