核心概念

更新时间：2025-04-24

实时音视频RTC

应用：是RTC的基础业务单元。每个应用有唯一的AppID，不同应用之间无法进行通信。每个用户可以创建多个应用，每个应用内可创建多个房间，开启鉴权的房间可在控制台获取AppKey。
房间：实时音视频的基础通信单元，加入到一个房间内的用户能够互相进行音视频通信。如一个会议、通话、课堂。
Room Name：房间名称，用户加入房间时输入，用户指定并维护，保证唯一性。
UiD：用户ID，整数类型, 用户的唯一身份标识，由客户业务系统生成并保证唯一性。
发布：一个用户将自己的音频、视频、屏幕分享发送出去的动作。
订阅：一个用户观看、收听他人音视频的动作。

大模型实时互动

互动应用：大模型实时互动基础业务单元，每个互动应用有唯一的AppID，并且对应一种互动类型，包括语音互动、视频互动、数字人互动，每个互动应用下可以创建多个互动实例。
ASR：语音转文字，在大模型互动时将用户的语音流转化成文字，然后输出给大模型。
TTS：文字转语音，在大模型互动时将大模型输出的文字转化成语音，然后进行播放。
声音复刻：支持通过30s-1min的音频文件进行快速音色复刻。
LLM：大语言模型，使用大量文本数据训练的深度学习模型，使得该模型可以生成自然语言文本或理解语言文本的含义。
智能体：可以自主思考、决策，并执行复杂任务的Agent。
function call：通过大模型调用预先定义好的函数，以完成特定任务，如“调大音量”、”拍照“等。
话题：在大模型互动中，客户可自定义的大模型，将一类或几类话题的意图，转发到自定义的大模型服务。例如：育儿话题、佛学佛经话题。
场景与角色：通过场景及角色功能，您可以设定大模型的作用范围，包括指定大模型扮演的角色、具备的能力、输出结果的格式与风格等，角色如太乙真人、哪吒，场景如成语接龙、猜谜语等，支持设置多个场景与角色。
云渲染：云渲染是指将语音、视频、图文、网页等内容在云端渲染处理，渲染完成后将结果传回本地设备显示，适用于低算力设备使用。
语音互动：互动应用类型之一，支持用户通过语音通话的方式与大模型进行实时互动。
视频互动：互动应用类型之一，支持用户通过音/视频通话的方式与大模型进行实时互动。
数字人互动：互动应用类型之一，支持用户通过数字人通话的方式与大模型进行实时互动。
大模型互动框架：提供大模型实时互动全链路服务，包括实时音视频、语音增强、语音转文字、大模型、文字转语音服务，其中大模型、文字转语音服务支持客户接入第三方服务。
License授权：License是大模型互动服务的一种计费模式，在智能硬件场景中，百度通过License对单个设备进行收费，客户购买License后，需要将License烧录在设备中激活SDK使用，在License有效期内，设备使用服务不再进行收费。

概述

功能特性

百度智能云

实时音视频 RTC

实时音视频 RTC

核心概念

实时音视频RTC

大模型实时互动