logo
2

已经有SFT、Prompt tuning、LoRA了,为什么还要有奖励模型训练和强化学习训练?

观察到千帆大模型平台最近新增了RLHF训练,包含奖励模型训练和强化学习训练。那经有SFT、Prompt tuning、LoRA了,为什么还要有奖励模型训练和强化学习训练?什么时候需要奖励模型训练和强化学习训练?
评论
用户头像