简介:本文将介绍ChatGPT的训练方法,以及大模型的进化历程,帮助读者更好地理解这一领域的最新进展。
在过去的几年里,自然语言处理领域取得了令人瞩目的成就,其中最引人注目的无疑是ChatGPT。ChatGPT是由OpenAI开发的大型语言模型,通过在强大的GPT-3.5模型基础上引入人工数据标注和强化学习,实现了与人类进行自然语言交互的能力。本文将重点介绍ChatGPT的训练方法,并梳理大模型的进化历程。
ChatGPT训练方法
ChatGPT的训练方法主要分为三个步骤:监督指令微调(SFT)、基于奖励模型的强化学习(RM)和基于PPO的策略优化(PPO)。
第一步,监督指令微调(SFT)。在这一步中,从5.4万个人工标注的指令集中抽取1.3万条指令,在大规模的GPT-3模型上进行微调。这一步的目标是使模型能够理解和生成满足人类需求的响应。
第二步,基于奖励模型的强化学习(RM)。在这一步中,基于新模型生成一批数据集,并重新组成3.3万对排序形式的数据。然后,人工对这些数据进行标注,并用于训练奖励模型。这个奖励模型的结构与基座LLM相同,全部采用6B级别的规模。这个奖励模型的作用是评估生成响应的质量,并为后续的强化学习提供指导。
第三步,基于PPO的策略优化(PPO)。这一步是实现强化学习算法的具体实现,即PPO算法。在这个过程中,奖励模型被用作“评论家”,而SFT阶段的大模型被用作“行动家”。通过让“行动家”学习指令集,“评论家”评估生成的响应质量并给出分数,然后更新权重,进入下一轮的训练。在这个过程中,论文中对比了两种损失函数,最终采用了混合预训练损失PPT_ptx,以兼顾预训练的效果。
大模型进化图谱
随着深度学习的发展,大型语言模型(LLM)也在不断进化。以下是LLM的进化图谱: