创建奖励模型训练任务
更新时间:2024-09-29
奖励模型训练是一种强化学习技术,用于根据人类反馈来学习如何更好地进行决策,从而获得更高的累积奖励值。
在强化学习中,智能体通过不断地与环境进行交互,从中获得一定的奖励值。奖励模型可以描述和计算每一次交互中智能体获得的奖励值,并且根据这些奖励值,智能体可以学习到如何更好地进行决策,从而获得更高的累积奖励值。
奖励模型是强化学习中的一个重要概念,它直接影响智能体的学习效果和行为表现。
登录到本平台,在左侧功能列偏好对齐RLHF训练中选择奖励模型训练,进入奖励模型训练主任务界面。
创建任务
您需要在奖励模型训练任务界面,选择“创建训练作业”按钮。
基本信息
填写好作业名称后,再进行500字内的作业描述即可。
训练配置
在您选定基础模型ERNIE-Lite-8K-0308后,按自身需求填写以下参数。
超参数 | 描述 |
---|---|
迭代轮次 | 迭代轮次(Epoch),控制训练过程中的迭代轮数。 |
学习率 | 学习率(LearningRate)是在梯度下降的过程中更新权重时的超参数,过高会导致模型难以收敛,过低则会导致模型收敛速度过慢,平台已给出默认推荐值,可根据经验调整。 |
序列长度 | 单条数据的长度,单位为token。由于长文本模型会默认采用packing策略,如果数据集中的长度较短,建议选择短的序列长度,并建议使用1000条数据以上。避免packing后数据量过小,导致训练效果变差。 |
useCls | 特征是否选取cls token的位置 |
预热比例 | 学习率预热的步数占比。 |
正则化系数 | 正则化系数(Weight_decay),用于防止模型对训练数据过拟合。但系数过大,可能导致欠拟合。 |
梯度累计步数 | 将多次计算得到的梯度值进行累加,然后一次性进行参数更新。0为不指定自动计算。 |
伪多轮概率 | 采用数据拼接的数据增强策略提升长文本效果。 |
随机种子 | 随机种子。 |
学习率调整计划 | 学习率调整计划(schedulerType),用于调整训练中学习率的变动方式。 |
cosine 策略的波数 | 仅用于 cosine 策略,表示波数。 |
polynomial 策略的末端 LR | 仅用于 polynomial 策略,表示末端 LR(注意,该值若生效需要比学习率小)。 |
验证步数 | Validation Step,计算验证集Loss的间隔步数;为0时不开启验证,没有相关指标。 |
polynomial 策略的幂数 | 仅用于 polynomial 策略,表示幂数。 |
数据配置
训练任务的选择数据及相关配置,奖励模型训练任务匹配多轮对话-多Response的数据集。
建议数据集总条数在1000条以上,训练模型更加精准。
数据集来源可以为千帆平台已发布的数据集版本,也可以为已有数据集的BOS地址,如果平台没有您准备好的训练数据,您可以选择创建数据集并发布。
若数据集保存在BOS中,请勿在提交任务后修改BOS数据。修改后可能会导致任务失败!
需注意:当选择BOS目录导入数据集时,数据放在jsonl文件夹下。您需要选择jsonl的父目录:
- RLHF支持单轮对话、多轮对话有排序数据。
- SFT支持单轮对话,多轮对话需要有标注数据。
- BOS目录导入数据要严格遵守其格式要求,如不符合此格式要求,训练作业无法成功开启。
百度BOS服务开通申请。
以上所有操作完成后,点击“开始训练”,则发起模型训练的任务。