核心概念
更新时间:2025-04-24
实时音视频RTC
- 应用:是RTC的基础业务单元。每个应用有唯一的AppID,不同应用之间无法进行通信。每个用户可以创建多个应用,每个应用内可创建多个房间,开启鉴权的房间可在控制台获取AppKey。
- 房间:实时音视频的基础通信单元,加入到一个房间内的用户能够互相进行音视频通信。如一个会议、通话、课堂。
- Room Name:房间名称,用户加入房间时输入,用户指定并维护,保证唯一性。
- UiD:用户ID,整数类型, 用户的唯一身份标识,由客户业务系统生成并保证唯一性。
- 发布:一个用户将自己的音频、视频、屏幕分享发送出去的动作。
- 订阅:一个用户观看、收听他人音视频的动作。
大模型实时互动
- 互动应用:大模型实时互动基础业务单元,每个互动应用有唯一的AppID,并且对应一种互动类型,包括语音互动、视频互动、数字人互动,每个互动应用下可以创建多个互动实例。
- ASR:语音转文字,在大模型互动时将用户的语音流转化成文字,然后输出给大模型。
- TTS:文字转语音,在大模型互动时将大模型输出的文字转化成语音,然后进行播放。
- 声音复刻:支持通过30s-1min的音频文件进行快速音色复刻。
- LLM:大语言模型,使用大量文本数据训练的深度学习模型,使得该模型可以生成自然语言文本或理解语言文本的含义。
- 智能体:可以自主思考、决策,并执行复杂任务的Agent。
- function call:通过大模型调用预先定义好的函数,以完成特定任务,如“调大音量”、”拍照“等。
- 话题:在大模型互动中,客户可自定义的大模型,将一类或几类话题的意图,转发到自定义的大模型服务。例如:育儿话题、佛学佛经话题。
- 场景与角色:通过场景及角色功能,您可以设定大模型的作用范围,包括指定大模型扮演的角色、具备的能力、输出结果的格式与风格等,角色如太乙真人、哪吒,场景如成语接龙、猜谜语等,支持设置多个场景与角色。
- 云渲染:云渲染是指将语音、视频、图文、网页等内容在云端渲染处理,渲染完成后将结果传回本地设备显示,适用于低算力设备使用。
- 语音互动:互动应用类型之一,支持用户通过语音通话的方式与大模型进行实时互动。
- 视频互动:互动应用类型之一,支持用户通过音/视频通话的方式与大模型进行实时互动。
- 数字人互动:互动应用类型之一,支持用户通过数字人通话的方式与大模型进行实时互动。
- 大模型互动框架:提供大模型实时互动全链路服务,包括实时音视频、语音增强、语音转文字、大模型、文字转语音服务,其中大模型、文字转语音服务支持客户接入第三方服务。
- License授权:License是大模型互动服务的一种计费模式,在智能硬件场景中,百度通过License对单个设备进行收费,客户购买License后,需要将License烧录在设备中激活SDK使用,在License有效期内,设备使用服务不再进行收费。