登录/注册

用户头像

2

已经有SFT、Prompt tuning、LoRA了，为什么还要有奖励模型训练和强化学习训练？

大模型开发/互助问答

LLM
文心大模型

2023.08.25360看过

观察到千帆大模型平台最近新增了RLHF训练，包含奖励模型训练和强化学习训练。那已经有SFT、Prompt tuning、LoRA了，为什么还要有奖励模型训练和强化学习训练？什么时候需要奖励模型训练和强化学习训练？

评论

用户头像

相关推荐

大数据与AI人工智能：AI的影响与应对措施
- 徐徐大树
- 5月8日
- 2354
- 0
- 0
【旅行规划专家】如何实现
- AppBuilder
- 5月10日
- 2201
- 1
- 0
写提示词很烧脑？3个方法让你的AI对话更高效
- 热心市民周先生
- 3小时前
- 21
- 0
- 0

作者头像

相关文章

热点话题