登录/注册
个人中心
消息中心
退出登录
2
1
已经有SFT、Prompt tuning、LoRA了,为什么还要有奖励模型训练和强化学习训练?
大模型开发
/
互助问答
LLM
文心大模型
2023.08.25
360看过
观察到千帆大模型平台最近新增了RLHF训练,包含奖励模型训练和强化学习训练。那
已
经有SFT、Prompt tuning、LoRA了,为什么还要有奖励模型训练和强化学习训练?什么时候需要奖励模型训练和强化学习训练?
评论
相关推荐
大数据与AI人工智能:AI的影响与应对措施
徐徐大树
5月8日
2354
0
0
【旅行规划专家】如何实现
AppBuilder
5月10日
2201
1
0
写提示词很烧脑?3个方法让你的AI对话更高效
热心市民周先生
3小时前
21
0
0
苏文利01
关注
已关注
相关文章
AI应用有奖试用评测征集【第一期】— 畅聊AI生成PPT,丰厚大奖等你来!
【智评】公文写作者的效率宝典——新华妙笔
AI应用有奖试用评测征集【第二期】— 智能设计神器创客贴,丰厚大奖等你来!
热点话题
千帆杯·赛事直播回放汇总
百度智能云千帆社区
705 看过
千帆杯-Workflow常规赛(上期)开赛!自定义编排组件,拓展应用能力边界
百度智能云千帆社区
891 看过
写提示词很烧脑?3个方法让你的AI对话更高效
热心市民周先生
21 看过
【RAG优化 / 前沿】0. 综述:盘点当前传统RAG流程中存在的问题及优化方法、研究前沿
十万个为什么呢
23 看过