文档指引
更新时间:2025-11-12
多模态实时互动融合语音、图像、文本等多种输入输出方式,结合实时通信与大模型理解能力,实现低延时、自然流畅的人机交流。广泛应用于教育培训、智能客服、虚拟人直播、远程协作、娱乐等场景,打造沉浸式智能体验。以下为文档指引
3、正式使用:开通服务、购买资源、创建互动应用、创建function call、创建声音复刻、license使用、音色列表
5、高级功能:
声音复刻:通过对⼀段或多段10-30s的⾳频和辅助文本素材进⾏⾳⾊复刻,快速克隆⾳频素材中的⾳⾊。
音乐播放:播放音乐故事等有声资源
声纹识别:提取说话人独特声音特征建立模型以验证说话人的身份
视觉理解:基于图片或视频抽帧,实现感知环境,图像回答等场景的多模态实时互动
更多功能见大模型实时互动功能
