什么是RFT训练
更新时间:2025-02-20
RFT(Reinforcement Fine-Tuning)
RFT将RL(对Agent的输出打分,基于打分迭代训练)和Fine-tuning的技术相结合。 RLHF同样也是需要人工反馈和Reward Model的训练将反馈转化为Reward信号。但是对于RFT来说,依赖Grader来分配Reward信号,帮助模型选择答案。流程如下:
Grader通过比较模型的Response和Reference对模型打分(0-1)。 因此,这也解释了RFT需要更少数据的原因(几十条便可取得不错的效果)。 模型主要是找到产生我们想要的输出的模式,而不是直接生成输出,这样泛化性更强。
优势
- 数据准备快速:不需要人工标注偏好数据。
- 效率更高:模型自动寻找输出的最优值。
工作步骤
RFT调优包括两个步骤:
1、数据集收集:Prompt+Response数据。参考:https://cloud.baidu.com/doc/WENXINWORKSHOP/s/yliu6bqzw
2、模型优化训练:基于预置模型RFT训练,并通过调整训练参数,优化模型输出。