什么是KTO训练
更新时间:2024-11-13
KTO(Kahneman-Tversky Optimisation):
Kahneman-Tversky优化方法,根据用户正向或负向反馈进行模型训练,高效对齐用户行为偏好。
本平台已预置KTO训练方式,点击开启KTO训练。
优势
- 成本节省:普通强化学习训练,重度依赖人类反馈,KTO训练可以做到Prompt和response的高效对齐,节省人类反馈的成本,同时具备时效性。
- 客观真实:普通强化学习训练,人类主观意识干扰过多,KTO训练可以使模型服务在符合人类预期的基础上,做到更加的客观和真实。
工作步骤
KTO微调包含以下两个步骤:
- 数据集收集:Prompt+Chosen/Rejected数据集,样例下载。
-
Prompt:
- ①单轮对话场景,Prompt字段仅包含每轮对话的提问;
- ②多轮对话场景,Prompt字段包含前几轮对话的问答及最后一轮的提问
- Chosen:Prompt字段对应的正偏好回答。
- Rejected:Prompt字段对应的负偏好回答。
优化训练:基于预置或SFT后的大模型,调整部分参数,训练您的偏好大模型。
常见问题
Q:KTO训练和DPO训练有什么不同?
A:训练过程中KTO方法需要对输出结果进行二元判断,符合预期/不符合预期,所以其收集的数据为Prompt+Chosen或Rejected;DPO训练依赖人类反馈,需要对输出结果进行偏好性判断,两个输出的倾向程度,所以其收集的数据为Prompt+Chosen和Rejected。