简介:加利福尼亚大学洛杉矶分校团队提出SPIN方法,通过自我博弈微调提升LLM能力,无需额外人类标注数据。该方法在多个基准数据集上显著提高了LLM性能,有望助力基础模型实现集体进化。
在金庸的武侠小说中,周伯通所创的“左右互搏”是一门令人称奇的武学绝技,通过左手与右手的对抗训练,达到了自娱自乐、提升武艺的效果。而在当今的人工智能领域,特别是大模型(LLM)时代,这种“左右互搏”的思想也被巧妙地应用到了机器学习模型的训练中。近日,加利福尼亚大学洛杉矶分校的顾全全团队提出了一种名为SPIN(Self-Play Fine-Tuning)的新方法,通过自我博弈的方式,让LLM在不使用额外微调数据的情况下实现能力的提升。
LLM,即大型语言模型,是人工智能领域的重要突破之一。它们能够以非凡的能力解决需要复杂推理和专业知识的广泛任务,如数学推理、代码生成、文本生成等。然而,LLM的训练和对齐过程往往依赖于成本高昂的人类标注数据,这限制了其进一步的发展和应用。为了解决这个问题,顾全全团队提出了SPIN方法,旨在开发出新的微调方法,使得微调后的模型可以继续变强,而且这个微调过程无需使用微调数据集之外的人类标注数据。
SPIN方法的核心思想是让LLM在自我博弈的过程中不断学习和提升。具体来说,可以将来自之前迭代的LLM记为pθt,它对于人类标注的SFT数据集中的prompt x,可以生成响应y’。然后,找到一个新的LLM pθ{t+1},使其有能力区分pθt生成的响应y’和人类给出的响应y。这个过程可以被看作是一个两个玩家的博弈过程:主玩家就是新LLM pθ{t+1},其目标是区分对手玩家pθt的响应以及人类生成的响应;对手玩家就是旧LLM pθt,其任务是生成与人类标注的SFT数据集尽可能相近的响应。通过不断的迭代和训练,新的LLM pθ{t+1}会变得越来越强大,最终收敛到与人类生成的响应无法区分的程度。
在实验中,顾全全团队使用了一个基于Mistral-7B微调后的LLM实例zephyr-7b-sft-full来验证SPIN方法的有效性。结果表明,新方法能在连续迭代中持续提升zephyr-7b-sft-full的性能。作为对比,当在SFT数据集Ultrachat200k上使用SFT方法持续训练时,评估分数则会达到性能瓶颈,甚至出现下降情况。更有趣的是,新方法使用的数据集只是Ultrachat200k数据集的一个50k大小的子集!这充分说明了SPIN方法的高效性和实用性。
此外,SPIN方法还有另一项显著的成就:可有效地将HuggingFace Open LLM排行榜中基础模型zephyr-7b-sft-full的平均分数从58.14提升至63.16,其中在GSM8k和TruthfulQA上能有超过10%的惊人提升,在MT-Bench上也可从5.94提升至6.78。值得注意的是,在Open LLM排行榜上,使用SPIN微调的模型甚至能与再使用额外62k偏好数据集训练的模型媲美。这再次证明了SPIN方法的强大和潜力。
SPIN方法的提出,不仅为LLM的训练和对齐提供了新的思路和方法,也为基础模型的进一步发展和应用开辟了新的道路。随着SPIN方法的不断完善和推广,我们有理由相信,基础模型将迎来一次集体的进化和提升,最终实现超越人类水平的人工智能。
在这一进程中,千帆大模型开发与服务平台等专业的AI服务平台也将发挥重要作用。它们提供了丰富的算法、模型和工具,为研究人员和开发者提供了便捷、高效的AI解决方案。借助这些平台,我们可以更加轻松地实现LLM的训练、微调和应用,推动人工智能技术的不断发展和创新。例如,在利用SPIN方法进行LLM训练时,千帆大模型开发与服务平台可以提供强大的计算资源和高效的算法支持,加速训练过程并提高模型性能。同时,该平台还可以提供丰富的数据集和标注工具,帮助研究人员更好地理解和利用数据,进一步提升模型的准确性和可靠性。总之,千帆大模型开发与服务平台等专业平台将为LLM的训练和应用提供有力支持,推动人工智能技术的不断发展和创新。