创建Post-pretrain任务
目录
大模型预训练是开发者可以基于大量的泛文本无标注数据使用Post-pretrain的方式训练出一个定制的预训练模型。
在Post-pretrain任务中调优预训练模型提升模型效果,完成预训练后,可以在SFT调优预训练模型。
登录到本平台,在左侧功能列选择Post-pretrain,进入大模型预训练的主任务界面。
创建任务
您需要在Post-pretrain任务界面,选择“创建训练作业”按钮,可根据训练需要选定基础模型版本。如在已有作业基础上新建任务,模型选择以已创建运行的最新运行使用的模型和版本为基准,不可切换基础模型。
基本信息
填写好作业名称和500字内的作业描述,并选择训练需要的基础模型版本。
训练配置
训练配置大模型参数,调整好基本配置。
- 在Post-pretrain训练任务中,可以选择开启增量训练开关
开关打开后,需要选择Post-pretrain的基准模型,此模型来源于运行中的Post-pretrain任务。所以您开启增量训练任务的前提有已经在运行中的Post-pretrain任务。
由于大模型权重占用较大存储,只能选择三个月内训练的模型发起增量训练。
注意:基础模型继承基准模型版本,所以当您选定基准模型后,基础模型及版本不可变更。
- 您也可以选择直接不使用增量训练,这样直接在基础模型上进行Post-pretrain。
·ERNIE Speed
百度自主研发的文心产业级知识增强大语言模型(高性能版),相较ERNIE Lite实现了基础模型的全面升级,在理解、生成、逻辑和记忆能力上有显著提升。
ERNIE-Speed-8K
单条数据支持8192 tokens。模型基于海量高质量数据训练,具有更强的文本理解、内容创作、对话问答等能力。
- 参数配置
超参数 | 简单描述 |
---|---|
迭代轮次 | 迭代轮次(epoch),控制训练过程中的迭代轮数。 |
学习率 | 学习率(learning_rate)是在梯度下降的过程中更新权重时的超参数,过高会导致模型难以收敛,过低则会导致模型收敛速度过慢,平台已给出默认推荐值,可根据经验调整。 |
序列长度 | 单条数据的长度,单位为token。如果数据集中每条数据的长度(输入)都在4096 tokens 以内,建议选择4096,针对短序列可以达到更优的训练效果。 |
全局批大小 | 全局批大小(GlobalBatchsize),每次训练迭代使用的样本数,为了加快训练效率,多条样本会使用Packing尽可能拼接到一个序列长度内。 |
Checkpoint保存个数 | 训练过程最终要保存的Checkpoint个数,Checkpoint保存会增加训练时长 |
Checkpoint保存间隔数 | 训练过程中保存Checkpoint的间隔Step数 |
随机种子 | 随机种子 |
学习率调整计划 | 学习率调整计划(schedulerType),用于调整训练中学习率的变动方式。 |
cosine 策略的波数 | 仅用于 cosine 策略,表示波数。 |
polynomial 策略的末端 LR | 仅用于 polynomial 策略,表示末端 LR(注意,该值若生效需要比学习率小)。 |
polynomial 策略的幂数 | 仅用于 polynomial 策略,表示幂数。 |
验证步数 | Validation Step,计算验证集Loss的间隔步数;为0时不开启验证,没有相关指标。 |
ERNIE-Speed-Pro-128K
单条数据支持128k tokens。模型基于海量高质量数据训练,具有更强的文本理解、内容创作、对话问答等能力。
- 参数配置
超参数 | 简单描述 |
---|---|
迭代轮次 | 迭代轮次(Epoch),控制训练过程中的迭代轮数。 |
学习率 | 学习率(LearningRate)是在梯度下降的过程中更新权重时的超参数,过高会导致模型难以收敛,过低则会导致模型收敛速度过慢,平台已给出默认推荐值,可根据经验调整。 |
序列长度 | 单条数据的长度,单位为token。 |
全局批大小 | 全局批大小(GlobalBatchsize),每次训练迭代使用的样本数,为了加快训练效率,多条样本会使用Packing尽可能拼接到一个序列长度内。 |
Checkpoint保存个数 | 训练过程最终要保存的Checkpoint个数,Checkpoint保存会增加训练时长。 |
Checkpoint保存间隔数 | 训练过程中保存Checkpoint的间隔Step数。 |
随机种子 | 随机种子。 |
学习率调整计划 | 学习率调整计划(schedulerType),用于调整训练中学习率的变动方式。 |
cosine 策略的波数 | 仅用于 cosine 策略,表示波数。 |
polynomial 策略的末端 LR | 仅用于 polynomial 策略,表示末端 LR(注意,该值若生效需要比学习率小)。 |
polynomial 策略的幂数 | 仅用于 polynomial 策略,表示幂数。 |
验证步数 | Validation Step,计算验证集Loss的间隔步数;为0时不开启验证,没有相关指标。 |
早停策略 | 监控精调任务的指标变化情况,指标连续不变则提前终止任务。 |
早停指标 | 任务早停的监控指标。 |
早停指标变化量 | 当精调任务指标的变化量超过早停指标变化量时才认为发生变化。 |
早停指标稳定次数 | 早停指标连续不变化的次数。 |
·ERNIE Lite
百度自主研发的大语言模型,覆盖海量中文数据,具有更强的对话问答、内容创作生成等能力。
ERNIE-Lite-128K-0722
单条数据支持128k tokens。ERNIE-Lite-128K的最新版本,对效果和性能都进行了优化。
- 参数配置
超参数 | 简单描述 |
---|---|
迭代轮次 | 迭代轮次(epoch),控制训练过程中的迭代轮数。 |
学习率 | 学习率(learning_rate)是在梯度下降的过程中更新权重时的超参数,过高会导致模型难以收敛,过低则会导致模型收敛速度过慢,平台已给出默认推荐值,可根据经验调整。 |
序列长度 | 单条数据的长度,单位为token。如果数据集中每条数据的长度(输入)都在4096 tokens 以内,建议选择4096,针对短序列可以达到更优的训练效果。 |
全局批大小 | 全局批大小(GlobalBatchsize),每次训练迭代使用的样本数,为了加快训练效率,多条样本会使用Packing尽可能拼接到一个序列长度内。 |
Checkpoint保存个数 | 训练过程最终要保存的Checkpoint个数,Checkpoint保存会增加训练时长 |
Checkpoint保存间隔数 | 训练过程中保存Checkpoint的间隔Step数 |
随机种子 | 随机种子 |
学习率调整计划 | 学习率调整计划(schedulerType),用于调整训练中学习率的变动方式。 |
cosine 策略的波数 | 仅用于 cosine 策略,表示波数。 |
polynomial 策略的末端 LR | 仅用于 polynomial 策略,表示末端 LR(注意,该值若生效需要比学习率小)。 |
polynomial 策略的幂数 | 仅用于 polynomial 策略,表示幂数。 |
验证步数 | Validation Step,计算验证集Loss的间隔步数;为0时不开启验证,没有相关指标。 |
·ERNIE Tiny
百度自研的超高性能大语言模型,精调成本在文心系列模型中最低。
ERNIE-Tiny-8K
单条数据支持8192 tokens。
- 参数配置
超参数 | 简单描述 |
---|---|
迭代轮次 | 迭代轮次(epoch),控制训练过程中的迭代轮数。 |
学习率 | 学习率(learning_rate)是在梯度下降的过程中更新权重时的超参数,过高会导致模型难以收敛,过低则会导致模型收敛速度过慢,平台已给出默认推荐值,可根据经验调整。 |
序列长度 | 单条数据的长度,单位为token。如果数据集中每条数据的长度(输入)都在4096 tokens 以内,建议选择4096,针对短序列可以达到更优的训练效果。 |
全局批大小 | 全局批大小(GlobalBatchsize),每次训练迭代使用的样本数,为了加快训练效率,多条样本会使用Packing尽可能拼接到一个序列长度内。 |
Checkpoint保存个数 | 训练过程最终要保存的Checkpoint个数,Checkpoint保存会增加训练时长 |
Checkpoint保存间隔数 | 训练过程中保存Checkpoint的间隔Step数 |
验证步数 | Validation Step,计算验证集Loss的间隔步数;为0时不开启验证,没有相关指标。 |
ERNIE-Tiny-128K-0929
单条数据支持128k tokens。
- 参数配置
超参数 | 说明 |
---|---|
迭代轮次 | 迭代轮次(Epoch),控制训练过程中的迭代轮数。可以根据数据规模适当调整Epoch大小,建议设置在1-5之间,小数据量可以适当增大Epoch,让模型充分收敛。 |
学习率 | 学习率(LearningRate)是在梯度下降的过程中更新权重时的超参数,过高会导致模型难以收敛,过低则会导致模型收敛速度过慢,平台已给出默认推荐值,可根据经验调整。 |
序列长度 | 单条数据的长度,单位为token。 |
全局批大小 | 全局批大小(GlobalBatchsize),每次训练迭代使用的样本数,为了加快训练效率,多条样本会使用Packing尽可能拼接到一个序列长度内。 |
Checkpoint保存个数 | 训练过程最终要保存的Checkpoint个数,Checkpoint保存会增加训练时长。 |
Checkpoint保存间隔数 | 训练过程中保存Checkpoint的间隔Step数。 |
随机种子 | 随机种子。 |
学习率调整计划 | 学习率调整计划(schedulerType),用于调整训练中学习率的变动方式。 |
cosine 策略的波数 | 仅用于 cosine 策略,表示波数。 |
polynomial 策略的末端 LR | 仅用于 polynomial 策略,表示末端 LR(注意,该值若生效需要比学习率小)。 |
polynomial 策略的幂数 | 仅用于 polynomial 策略,表示幂数。 |
验证步数 | Validation Step,计算验证集Loss的间隔步数;为0时不开启验证,没有相关指标。 |
早停策略 | 监控精调任务的指标变化情况,指标连续不变则提前终止任务。 |
·ERNIE Character
百度自研的垂直场景大语言模型,适合游戏NPC、客服对话、对话角色扮演等应用场景,人设风格更为鲜明、一致,指令遵循能力更强,推理性能更优。
ERNIE-Character-Fiction-8K
单条数据支持8192 tokens。在情节演绎和括号文字等指令遵循能力上表现优异。
- 参数配置
超参数 | 说明 |
---|---|
迭代轮次 | 迭代轮次(Epoch),控制训练过程中的迭代轮数。可以根据数据规模适当调整Epoch大小,建议设置在1-5之间,小数据量可以适当增大Epoch,让模型充分收敛。 |
学习率 | 学习率(LearningRate)是在梯度下降的过程中更新权重时的超参数,过高会导致模型难以收敛,过低则会导致模型收敛速度过慢,平台已给出默认推荐值,可根据经验调整。 |
序列长度 | 单条数据的长度,单位为token。 |
全局批大小 | 全局批大小(GlobalBatchsize),每次训练迭代使用的样本数,为了加快训练效率,多条样本会使用Packing尽可能拼接到一个序列长度内。 |
Checkpoint保存个数 | 训练过程最终要保存的Checkpoint个数,Checkpoint保存会增加训练时长。 |
Checkpoint保存间隔数 | 训练过程中保存Checkpoint的间隔Step数。 |
随机种子 | 随机种子。 |
学习率调整计划 | 学习率调整计划(schedulerType),用于调整训练中学习率的变动方式。 |
cosine 策略的波数 | 仅用于 cosine 策略,表示波数。 |
polynomial 策略的末端 LR | 仅用于 polynomial 策略,表示末端 LR(注意,该值若生效需要比学习率小)。 |
polynomial 策略的幂数 | 仅用于 polynomial 策略,表示幂数。 |
验证步数 | Validation Step,计算验证集Loss的间隔步数;为0时不开启验证,没有相关指标。 |
早停策略 | 监控精调任务的指标变化情况,指标连续不变则提前终止任务。 |
·Llama-2
Llama 是Meta AI推出的开源大语言模型。千帆ModelBuilder团队在开源模型基础上做了中文增强。
Qianfan-Chinese-Llama-2-13B-v1
单条数据支持4096 tokens。Qianfan-Chinese-Llama-2-13B-v1,千帆ModelBuilder团队在Llama-2-13b基础上的中文增强版本。
- 参数配置
超参数 | 简单描述 |
---|---|
迭代轮次 | 迭代轮次(epoch),控制训练过程中的迭代轮数。 |
学习率 | 学习率(learning_rate)是在梯度下降的过程中更新权重时的超参数,过高会导致模型难以收敛,过低则会导致模型收敛速度过慢,平台已给出默认推荐值,可根据经验调整。 |
批处理大小 | 批处理大小(BatchSize)表示在每次训练迭代中使用的样本数。较大的批处理大小可以加速训练,但可能会导致内存问题。 |
Checkpoint保存个数 | 训练过程最终要保存的Checkpoint个数,Checkpoint保存会增加训练时长 |
Checkpoint保存间隔数 | 训练过程中保存Checkpoint的间隔Step数 |
验证步数 | Validation Step,计算验证集Loss的间隔步数;为0时不开启验证,没有相关指标。 |
数据配置
训练任务的选择数据及相关配置,大模型调优任务需要匹配纯文本的数据集,您的数据需要大于训练数据1千万tokens,才可以进行任务提交:
- 数据1 x 采样率1大于1千万tokens时,允许提交,即便数据1小于1千万tokens
- 数据1 x 采样率1+数据2 x 采样率2大于1千万tokens时,允许提交,即便数据1、数据2的和小于1千万tokens
- 数据1 x 采样率1+千帆混合语料大于1千万tokens时允许提交
数据集来源可以为本平台已发布的数据集版本、BOS或者预置数据集,如果平台没有您准备好的训练数据,您也可以直接创建数据集,如果选择两个及以上的数据集,支持数据配比,数据占比总和等于100%。
您可以通过提高采样率,来提升数据集的占比。 采样率:对数据集进⾏随机采样,取值范围为[0.01-10]。当数据集过⼤或质量不⾼,可以利⽤⽋采样(采样率⼩于1)来缩减训练数据的⼤⼩;当数据集过⼩或质量较⾼,可以利⽤过采样(采样率⼤于1)来增加训练数据的⼤⼩,数值越⼤训练时对该部分数据的关注度越⾼,但训练时⻓及费⽤越⾼,推荐过采样率范围为[1-5]。
注意:任务运行推荐数据量至少10亿tokens,如您试用的话,则推荐1千万tokens及以上的数据量。
混合训练:支持用户使用自身数据与千帆语料数据混合训练,其中包含多行业、多维度的通用语料数据由千帆大模型平台提供。
注意:开启数据配比后,会增加整体训练tokens数,参与计费。
总千帆语料共100B tokens,混入比例的取值范围为[0-100]%。您可查看推荐值输入:
数据拆分比例:比如设置20,则表示选定数据集版本总数的80%作为训练集,20%作为验证集。
若数据集保存在BOS中,请勿在提交任务后修改BOS数据。修改后可能会导致任务失败!
以上所有操作完成后,点击“开始训练”,则发起模型训练的任务。
注意:Post-pretrain训练任务规模大,任务需要后台审核后才能开启。另外,数据量至少10亿tokens,如您试用的话,则1千万tokens及以上的数据量会凸显训练效果。