简介:本文深入探讨了RLHF算法存在的问题及其新训练策略SLiC-HF、DPO、RRHF和RSO,分析了这些策略的原理、优势及实施方式,为提升RLHF的训练效率和效果提供了有价值的参考。
在人工智能领域,RLHF(Reinforcement Learning from Human Feedback)算法是一种重要的训练方式,它能够让模型通过人类反馈进行学习和优化。然而,RLHF算法也存在一些问题,如偏好样本的人工标注成本高、效率低,以及训练过程中的显存占用高等。为了解决这些问题,研究者们提出了多种新的训练策略,包括SLiC-HF、DPO、RRHF和RSO等。本文将对这些新策略进行深入探讨。
首先,我们需要了解RLHF算法面临的主要问题。RLHF算法依赖人工标注的偏好样本进行训练,这些样本的获取成本高且效率低。同时,由于标注者的主观性,标注偏好可能存在不一致的问题。此外,RLHF属于online训练策略,需要模型在训练过程中进行解码,这导致了训练时间长和效率低的问题。最后,RLHF需要同时部署Reward模型和SFT模型以及更新后的模型,这增加了显存占用和训练成本。
针对RLHF算法的问题,研究者们提出了SLiC-HF(Sequence Likelihood Calibration with Human Feedback)策略。SLiC-HF是一种post-training的指令对齐方案,旨在解决指令微调阶段使用MLE(Maximum Likelihood Estimation)带来的稀疏训练问题。该策略使用半监督的思路,先使用SFT对齐后的模型生成推理候选结果,然后使用无监督样本进行对比训练。通过这种方式,模型能够对和标注答案更相似的候选样本给予更高的解码概率,反之更低。
SLiC-HF使用offline的训练方案,构建偏好样本的方式包括Direct和Sample and Rank两种。Direct方案直接使用Reddit摘要数据集中人工标注的正负偏好样本,而Sample and Rank方案则先使用偏好数据训练Reward模型,然后使用SFT模型生成解码候选,最后随机采样正负样本对。在对比损失函数方面,SLiC-HF尝试了四种不同的函数,并发现Rank Loss的效果最好。
DPO(Direct Preference Optimization)是另一种基于offline正负偏好样本对的训练策略。与SLiC-HF类似,DPO也使用对比学习来进行偏好对齐。然而,DPO的偏好样本标注是直接基于SFT模型生成候选,然后人工标注得到正负样本对。在训练过程中,DPO不训练Reward模型,而是直接使用损失函数进行拟合。
DPO的损失函数与SLiC-HF有所不同。DPO的损失函数旨在让模型对偏好样本的解码概率相比基准模型(SFT模型)升高,而对负样本的解码概率下降。这种损失函数与Triplet Loss的对比损失函数思路相似。实验结果表明,DPO的损失函数在性能上优于SLiC-HF的对比函数。
除了SLiC-HF和DPO之外,还有RRHF(Rank Responses to Align Language Models with Human Feedback without tears)和RSO等其他训练策略。RRHF同样采用offline构建正负样本对的方式,并使用对比学习进行偏好对齐。与SLiC-HF相比,RRHF在构建偏好样本和对比损失函数方面可能有所不同。
RSO则是一种更为复杂的训练策略,它结合了多种技术和方法以提升RLHF的训练效果。然而,由于RSO的具体细节和性能评估尚未公开,因此本文无法对其进行深入探讨。
在探讨这些新训练策略时,我们不得不提到千帆大模型开发与服务平台。该平台提供了强大的模型训练和优化功能,能够支持研究者们实现这些新策略。通过使用千帆大模型开发与服务平台,研究者们可以更加高效地训练和优化RLHF模型,从而提升模型的性能和效果。
以SLiC-HF为例,该平台可以提供丰富的标注数据和高效的模型生成能力,帮助研究者们快速构建偏好样本。同时,该平台还支持多种对比损失函数和正则化方法,使得研究者们可以根据实验需求进行灵活选择和调整。这些功能都极大地促进了SLiC-HF等新策略的研究和应用。
综上所述,SLiC-HF、DPO、RRHF和RSO等新训练策略为RLHF算法带来了重要的改进和提升。这些策略通过不同的方式解决了RLHF算法存在的问题,如降低偏好样本标注成本、提高训练效率和效果等。同时,千帆大模型开发与服务平台等工具的出现也为这些新策略的研究和应用提供了有力的支持。随着技术的不断发展,我们有理由相信RLHF算法将在未来取得更加显著的进步和突破。