logo

人类反馈强化学习的反馈数据怎么来的?

如果是人工标注的话,大概的流程、人工、规模,减轻标注负担的方法是什么样的?还有就是reward模型用的哪个?
评论
用户头像