创建奖励模型训练任务
更新时间:2024-07-18
目录
奖励模型训练是一种强化学习技术,用于根据人类反馈来学习如何更好地进行决策,从而获得更高的累积奖励值。
在强化学习中,智能体通过不断地与环境进行交互,从中获得一定的奖励值。奖励模型可以描述和计算每一次交互中智能体获得的奖励值,并且根据这些奖励值,智能体可以学习到如何更好地进行决策,从而获得更高的累积奖励值。
奖励模型是强化学习中的一个重要概念,它直接影响智能体的学习效果和行为表现。
登录到千帆大模型操作台,在左侧功能列偏好对齐RLHF训练中选择奖励模型训练,进入奖励模型训练主任务界面。
创建任务
您需要在奖励模型训练任务界面,选择“创建训练作业”按钮。
基本信息
填写好作业名称后,再进行500字内的作业描述即可。
数据配置
训练任务的选择数据及相关配置,奖励模型训练任务匹配多轮对话-排序类的数据集。
建议数据集总条数在1000条以上,训练模型更加精准。
数据集来源可以为千帆平台已发布的数据集版本,如果平台没有您准备好的训练数据,您可以选择创建数据集并发布。
以上所有操作完成后,点击“开始训练”,则发起模型训练的任务。