核心概念
更新时间:2025-05-07
大模型实时互动
- 互动应用:大模型实时互动基础业务单元,每个互动应用有唯一的AppID,并且对应一种互动类型,包括语音互动、视频互动、数字人互动,每个互动应用下可以创建多个互动实例。
- ASR:语音转文字,在大模型互动时将用户的语音流转化成文字,然后输出给大模型。
- TTS:文字转语音,在大模型互动时将大模型输出的文字转化成语音,然后进行播放。
- 声音复刻:支持通过30s-1min的音频文件进行快速音色复刻。
- LLM:大语言模型,使用大量文本数据训练的深度学习模型,使得该模型可以生成自然语言文本或理解语言文本的含义。
- 智能体:可以自主思考、决策,并执行复杂任务的Agent。
- function call:通过大模型调用预先定义好的函数,以完成特定任务,如“调大音量”、”拍照“等。
- 话题:在大模型互动中,客户可自定义的大模型,将一类或几类话题的意图,转发到自定义的大模型服务。例如:育儿话题、佛学佛经话题。
- 场景与角色:通过场景及角色功能,您可以设定大模型的作用范围,包括指定大模型扮演的角色、具备的能力、输出结果的格式与风格等,角色如太乙真人、哪吒,场景如成语接龙、猜谜语等,支持设置多个场景与角色。
- 云渲染:云渲染是指将语音、视频、图文、网页等内容在云端渲染处理,渲染完成后将结果传回本地设备显示,适用于低算力设备使用。
- 语音互动:互动应用类型之一,支持用户通过语音通话的方式与大模型进行实时互动。
- 视频互动:互动应用类型之一,支持用户通过音/视频通话的方式与大模型进行实时互动。
- 数字人互动:互动应用类型之一,支持用户通过数字人通话的方式与大模型进行实时互动。
- 大模型互动框架:提供大模型实时互动全链路服务,包括实时音视频、语音增强、语音转文字、大模型、文字转语音服务,其中大模型、文字转语音服务支持客户接入第三方服务。
- License授权:License是大模型互动服务的一种计费模式,在智能硬件场景中,百度通过License对单个设备进行收费,客户购买License后,需要将License烧录在设备中激活SDK使用,在License有效期内,设备使用服务不再进行收费。