创建RFT任务
更新时间:2025-02-27
OpenAI提出Reinforcement Fine-Tuning(RFT),RFT的核心是通过自动化生成的奖励信号驱动模型优化,让模型通过多轮试错和反馈逐步提升推理能力。不需要单独训练奖励模型,通过Grader对输出打分,作为奖励信号优化模型权重。
登录到本平台,在创建精调作业中选择RFT,进入RFT创建界面。
创建任务
进入到创建精调作业后,选择偏好对齐下的RFT训练方法。
基本信息
填写基础的作业名称及作业描述。并选择基础模型及模型版本。
训练配置
在RFT训练中,需要配置奖励规则,奖励规则中定义了如何评估模型输出效果的规则。目前预置三种奖励规则:
- 字符串比较(相等):通过对比语料的Response和模型的输出是否一致来判断模型的效果,适合需要大模型输出标签、数值等比较明确的场景。完全匹配1分,哈希匹配阈值>0.3 得0.5分,否则0分。
- 字符串比较(包含):通过对比模型的输出中是否包括准备语料的Response判断模型的效果。
- 字符串相似度对比:通过Edit Distance衡量语料的Response和模型的输出的相似度来判断模型的效果。
- 数学答案匹配:使用正则表达从模型的输出中抽取答案,和语料的Response对比是否一致。适合数学题计算等类似的场景。
数据配置
训练任务的选择数据及相关配置,大模型调优任务需要匹配Prompt+Response或Role类型的数据集。至少需要20条数据才可发起训练。
数据集来源可以为千帆平台已发布的数据集版本或BOS,如果选择两个及以上的数据集,支持数据配比,数据占比总和等于100%。
采样率:对数据集进⾏随机采样,取值范围为[0.01-10]。当数据集过⼤或质量不⾼,可以利⽤⽋采样(采样率⼩于1)来缩减训练数据的⼤⼩;当数据集过⼩或质量较⾼,可以利⽤过采样(采样率⼤于1)来增加训练数据的⼤⼩,数值越⼤训练时对该部分数据的关注度越⾼,但训练时⻓及费⽤越⾼,推荐过采样率范围为[1-5]。
数据拆分比例:您可以选择对上面已选择的数据集进行拆分作为测试集,或者指定数据作为测试集。
- 数据拆分比例:比如设置20,则表示选定数据集版本总数的80%作为训练集,20%作为验证集。
关于训练费用可查看价格文档。
另外本训练任务支持您选择开启闲时训练,任务提交后,等待平台资源空闲时进行调度。不保证资源的独占,训练过程中可能会被抢占。适合对时效性要求不高的任务。其支持范围和价格可查看闲时训练计费明细
以上所有操作完成后,点击“确定”,则发起模型训练的任务。