创建Post-pretrain任务
目录
大模型预训练是开发者可以基于大量的泛文本无标注数据使用Post-pretrain的方式训练出一个定制的预训练模型。
在Post-pretrain任务中调优预训练模型提升模型效果,完成预训练后,可以在SFT调优预训练模型。
登录到本平台,在创建精调作业界面选择Post-pretrain,进入大模型预训练的主任务界面。
创建任务
如在已有作业基础上新建任务,模型选择以已创建运行的最新运行使用的模型和版本为基准,不可切换基础模型。
基本信息
填写好作业名称和500字内的作业描述,并选择训练需要的基础模型版本。
训练配置
训练配置大模型参数,调整好基本配置。
- 在Post-pretrain训练任务中,可以选择开启增量训练开关
开关打开后,需要选择Post-pretrain的基准模型,此模型来源于运行中的Post-pretrain任务。所以您开启增量训练任务的前提有已经在运行中的Post-pretrain任务。
由于大模型权重占用较大存储,只能选择三个月内训练的模型发起增量训练。
注意:基础模型继承基准模型版本,所以当您选定基准模型后,基础模型及版本不可变更。
- 您也可以选择直接不使用增量训练,这样直接在基础模型上进行Post-pretrain。
模型介绍
模型随时更新,请在操作界面选择适合的模型并查看模型介绍与模型版本,在创建作业界面选择Post-pretrain进行操作。
训练方式
训练方法 | 简单描述 |
---|---|
全量更新 | 全量更新在训练过程中对大模型的全部参数进行更新 |
LoRA | 在固定预训练大模型本身的参数的基础上,在保留自注意力模块中原始权重矩阵的基础上,对权重矩阵进行低秩分解,训练过程中只更新低秩部分的参数。 |
- 参数配置
部分重要参数如下,详细参数介绍可以在操作界面查看说明并自由配置。
数据配置
训练任务的选择数据及相关配置,大模型调优任务需要匹配纯文本的数据集,您的数据需要大于训练数据1千万tokens,才可以进行任务提交:
- 数据1 x 采样率1大于1千万tokens时,允许提交,即便数据1小于1千万tokens
- 数据1 x 采样率1+数据2 x 采样率2大于1千万tokens时,允许提交,即便数据1、数据2的和小于1千万tokens
- 数据1 x 采样率1+千帆混合语料大于1千万tokens时允许提交
数据集来源可以为本平台已发布的数据集版本、BOS或者预置数据集,如果平台没有您准备好的训练数据,您也可以直接创建数据集,如果选择两个及以上的数据集,支持数据配比,数据占比总和等于100%。
您可以通过提高采样率,来提升数据集的占比。 采样率:对数据集进⾏随机采样,取值范围为[0.01-10]。当数据集过⼤或质量不⾼,可以利⽤⽋采样(采样率⼩于1)来缩减训练数据的⼤⼩;当数据集过⼩或质量较⾼,可以利⽤过采样(采样率⼤于1)来增加训练数据的⼤⼩,数值越⼤训练时对该部分数据的关注度越⾼,但训练时⻓及费⽤越⾼,推荐过采样率范围为[1-5]。
注意:任务运行推荐样本数至少10亿tokens,如您试用的话,则推荐1千万tokens及以上的样本数。
混合训练:支持用户使用自身数据与千帆语料数据混合训练,其中包含多行业、多维度的通用语料数据由千帆大模型平台提供。
注意:开启数据配比后,会增加整体训练tokens数,参与计费。
总千帆语料共100B tokens,混入比例的取值范围为[0-100]%。您可查看推荐值输入:
数据拆分比例:比如设置20,则表示选定数据集版本总数的80%作为训练集,20%作为验证集。
若数据集保存在BOS中,请勿在提交任务后修改BOS数据。修改后可能会导致任务失败!
以上所有操作完成后,点击“开始训练”,则发起模型训练的任务。
注意:Post-pretrain训练任务规模大,任务需要后台审核后才能开启。另外,样本数至少10亿tokens,如您试用的话,则1千万tokens及以上的样本数会凸显训练效果。