创建SFT任务
SFT实际上是Fine-Tuning的训练模式,开发者可以选择适合自己任务场景的训练模式并加以调参训练,从而实现理想的模型效果。
登录到本平台,在左侧功能列选择SFT,进入SFT主任务界面。
创建任务
您需要在SFT任务界面,选择“创建训练作业”按钮,如果您在任务列表已经有创建好的模型任务,可以直接点击“新建任务”创作模型的迭代版本,如果已有运行中的的版本,再次创建的运行任务不可切换基础模型类型。
基本信息
填写好作业名称后,选择作业类型,再进行500字内的作业描述即可。
当前SFT任务支持以下任务类型:大语言模型、文生图大模型、图理解模型。
大语言模型
训练配置
训练配置大模型参数,调整好基本配置。
- 在SFT训练任务中,可以选择开启增量训练开关。需注意的是,基准模型为“全量更新”训练出来的模型,才支持开启此开关。
为保证增量训练效果,开启增量训练后默认选取10%训练基准模型的数据混合进行训练
注意:基础模型继承基准模型(全量更新所得)版本,所以当您选定基准模型后,基础模型及版本不可变更,支持选择SFT、DPO和KTO训练后的模型。由于大模型权重占用较大存储,只能选择三个月内训练的模型发起增量训练。
- 若基准模型有保存Checkpoint的最新的Step,则显示 【名称+版本+Step】。
- 您也可以选择直接不使用增量训练,这样直接在基础模型上进行SFT。
·ERNIE 4.0 Turbo
百度自研的旗舰级超大规模⼤语⾔模型,综合效果表现出色,广泛适用于各领域复杂任务场景。
ERNIE-4.0-Turbo-8K
单条数据支持8192 tokens。该模型在性能和效果上表现优异。
训练方法 | 简单描述 |
---|---|
LoRA | 训练过程中只更新低秩部分的参数,需要的计算资源更少,训练过程更快,可以减少过拟合的风险。 |
- 参数配置
超参数 | 简单描述 |
---|---|
迭代轮次 | 迭代轮次(Epoch),控制模型训练过程中遍历整个数据集的次数。建议设置在1-5之间,小数据集可增大Epoch以促进模型收敛。 |
学习率 | 学习率(Learning Rate),控制模型参数更新步长的速度。过高会导致模型难以收敛,过低则会导致模型收敛速度过慢,平台已给出默认推荐值,可根据经验调整。 |
序列长度 | 序列长度(Sequence Length),单条数据的最大长度,包括输入和输出。该长度在模型的训练和推理过程中全部适用,超过该长度的部分将在推理时自动截断,单位为token。如果数据集中的文本普遍较短,建议选择较短的序列长度以提高计算效率。 |
全局批大小 | 全局批大小(GlobalBatchsize),每次训练迭代使用的样本数,为了加快训练效率,多条样本会使用Packing尽可能拼接到一个序列长度内。 |
保存日志间隔 | 保存日志间隔(Logging Interval),设定模型训练过程中记录日志的间隔步数。合理设置可以平衡日志记录的详细程度和存储、处理资源的消耗。 |
预热比例 | 预热比例(Learning Rate Warmup),训练初期学习率预热步数占用总的训练步数的比例。学习率预热可以提高模型稳定性和收敛速度。 |
正则化系数 | 正则化系数(Weight Decay),控制正则化项对模型参数的影响强度。适当增大系数可以增强正则化效果,防止过拟合,但过高的系数可能导致模型欠拟合。 |
LoRA 策略中的秩 | 仅选择LoRA训练方法时设置,LoRA 策略中的秩(LoRA Rank),决定了微调过程中引入的低秩矩阵的复杂度。较小的秩可以减少参数数量,降低过拟合风险,但可能不足以捕捉任务所需的所有特征;较大的秩可能增强模型的表示能力,但会增加计算和存储负担。 |
LoRA所有线性层 | 仅选择LoRA训练方法时设置,LoRA所有线性层(LoRA in Linear),是否将 LoRA 策略应用在所有Linear层。如果资源充足且目标是最大程度地提升模型性能,可以尝试在所有线性层上应用 LoRA,但需注意监控过拟合风险。 |
伪多轮概率 | 伪多轮概率(Pseudo Multi-Round Probability),随机采用数据拼接的数据增强策略的概率。 |
Checkpoint保存个数 | Checkpoint保存个数(Number of Checkpoint),训练过程最终要保存的Checkpoint个数。Checkpoint保存可以在系统故障时从最近的Checkpoint中恢复训练,但保存Checkpoint会增加训练时长。 |
Checkpoint保存间隔数 | Checkpoint保存间隔数(Checkpoint Interval),训练过程中保存Checkpoint的间隔Step数。间隔太短可能导致频繁的Checkpoint操作增加训练时长,间隔太长则可能在故障时丢失更多的数据。 |
随机种子 | 随机种子(Random Seed),是在随机数生成算法中设定的一个初始值,用于确保随机数生成的可重复性。通过设置随机种子,可以在相同的算法和参数下,生成相同的随机数序列。 |
学习率调整计划 | 学习率调整计划(schedulerType),用于在训练过程中动态调整学习率,以优化模型的收敛速度和性能。根据模型的训练情况和任务需求,选择合适的学习率调整方式。 |
cosine 策略的波数 | cosine 策略的波数(Period of Cosine),波数定义了余弦函数周期的长短。减少波数可以使模型训练过程稳定,增加波数可以避免陷入局部最优。 |
polynomial 策略的末端 LR | polynomial 策略的末端 LR(Polynomial Decay End Learning Rate),指的是在多项式衰减策略中,学习率下降到最后所达到的最小值。这个值通常设置得较低,该值若生效需要比学习率小,保证在模型训练后期实现细致的优化。 |
polynomial 策略的幂数 | polynomial 策略的幂数(Polynomial Decay Power),是指在多项式衰减学习率调整策略中,用于控制学习率下降曲线陡峭程度的指数。幂数越大,可以避免陷入局部最优;幂数越小,可以使模型训练过程稳定。 |
验证步数 | 验证步数(Validation Steps),计算验证集Loss的间隔步数;为0时不开启验证,没有相关指标。 |
早停策略 | 早停策略(Early Stopping),监控精调任务的指标变化情况,指标连续不变则提前终止训练。 |
早停指标 | 早停策略选择ture时,显示此指标。早停指标(Early Stopping Metric),根据该监控指标决定任务是否早停。 |
早停指标变化量 | 早停策略选择ture时,显示此指标。早停指标变化量(Early Stopping Metric Change),当精调任务指标的变化量超过早停指标变化量时才认为发生变化。根据实际损失曲线进行决定。 |
早停指标稳定次数 | 早停策略选择ture时,显示此指标。早停指标稳定次数(Early Stopping Patience),早停指标连续不变化的次数。如果设置的稳定次数较小,早停策略会更敏感,可能在模型尚未充分训练时就停止训练;如果设置的稳定次数较大,早停策略会更宽松,允许模型有更多的训练周期来改善性能。 |
·ERNIE 3.5
ERNIE 系列旗舰级大规模⼤语⾔模型,ERNIE系列中参数规模最大的模型。覆盖海量中英文语料,具有强大的通用能力。
ERNIE-3.5-8K
单条数据支持8192 tokens。ERNIE 3.5 旗舰级⼤语⾔模型。
训练方法 | 简单描述 |
---|---|
全量更新 | 全量更新在训练过程中对大模型的全部参数进行更新 |
LoRA | 训练过程中只更新低秩部分的参数,需要的计算资源更少,训练过程更快,可以减少过拟合的风险。 |
- 参数配置
超参数 | 简单描述 |
---|---|
迭代轮次 | 迭代轮次(Epoch),控制模型训练过程中遍历整个数据集的次数。建议设置在1-5之间,小数据集可增大Epoch以促进模型收敛。 |
学习率 | 学习率(Learning Rate),控制模型参数更新步长的速度。过高会导致模型难以收敛,过低则会导致模型收敛速度过慢,平台已给出默认推荐值,可根据经验调整。 |
序列长度 | 序列长度(Sequence Length),单条数据的最大长度,包括输入和输出。该长度在模型的训练和推理过程中全部适用,超过该长度的部分将在推理时自动截断,单位为token。如果数据集中的文本普遍较短,建议选择较短的序列长度以提高计算效率。 |
全局批大小 | 全局批大小(GlobalBatchsize),每次训练迭代使用的样本数,为了加快训练效率,多条样本会使用Packing尽可能拼接到一个序列长度内。 |
保存日志间隔 | 保存日志间隔(Logging Interval),设定模型训练过程中记录日志的间隔步数。合理设置可以平衡日志记录的详细程度和存储、处理资源的消耗。 |
预热比例 | 预热比例(Learning Rate Warmup),训练初期学习率预热步数占用总的训练步数的比例。学习率预热可以提高模型稳定性和收敛速度。 |
正则化系数 | 正则化系数(Weight Decay),控制正则化项对模型参数的影响强度。适当增大系数可以增强正则化效果,防止过拟合,但过高的系数可能导致模型欠拟合。 |
LoRA 策略中的秩 | 仅选择LoRA训练方法时设置,LoRA 策略中的秩(LoRA Rank),决定了微调过程中引入的低秩矩阵的复杂度。较小的秩可以减少参数数量,降低过拟合风险,但可能不足以捕捉任务所需的所有特征;较大的秩可能增强模型的表示能力,但会增加计算和存储负担。 |
LoRA所有线性层 | 仅选择LoRA训练方法时设置,LoRA所有线性层(LoRA in Linear),是否将 LoRA 策略应用在所有Linear层。如果资源充足且目标是最大程度地提升模型性能,可以尝试在所有线性层上应用 LoRA,但需注意监控过拟合风险。 |
伪多轮概率 | 伪多轮概率(Pseudo Multi-Round Probability),随机采用数据拼接的数据增强策略的概率。 |
Checkpoint保存个数 | Checkpoint保存个数(Number of Checkpoint),训练过程最终要保存的Checkpoint个数。Checkpoint保存可以在系统故障时从最近的Checkpoint中恢复训练,但保存Checkpoint会增加训练时长。 |
Checkpoint保存间隔数 | Checkpoint保存间隔数(Checkpoint Interval),训练过程中保存Checkpoint的间隔Step数。间隔太短可能导致频繁的Checkpoint操作增加训练时长,间隔太长则可能在故障时丢失更多的数据。 |
随机种子 | 随机种子(Random Seed),是在随机数生成算法中设定的一个初始值,用于确保随机数生成的可重复性。通过设置随机种子,可以在相同的算法和参数下,生成相同的随机数序列。 |
学习率调整计划 | 学习率调整计划(schedulerType),用于在训练过程中动态调整学习率,以优化模型的收敛速度和性能。根据模型的训练情况和任务需求,选择合适的学习率调整方式。 |
cosine 策略的波数 | cosine 策略的波数(Period of Cosine),波数定义了余弦函数周期的长短。减少波数可以使模型训练过程稳定,增加波数可以避免陷入局部最优。 |
polynomial 策略的末端 LR | polynomial 策略的末端 LR(Polynomial Decay End Learning Rate),指的是在多项式衰减策略中,学习率下降到最后所达到的最小值。这个值通常设置得较低,该值若生效需要比学习率小,保证在模型训练后期实现细致的优化。 |
polynomial 策略的幂数 | polynomial 策略的幂数(Polynomial Decay Power),是指在多项式衰减学习率调整策略中,用于控制学习率下降曲线陡峭程度的指数。幂数越大,可以避免陷入局部最优;幂数越小,可以使模型训练过程稳定。 |
验证步数 | 验证步数(Validation Steps),计算验证集Loss的间隔步数;为0时不开启验证,没有相关指标。 |
早停策略 | 早停策略(Early Stopping),监控精调任务的指标变化情况,指标连续不变则提前终止训练。 |
早停指标 | 早停策略选择ture时,显示此指标。早停指标(Early Stopping Metric),根据该监控指标决定任务是否早停。 |
早停指标变化量 | 早停策略选择ture时,显示此指标。早停指标变化量(Early Stopping Metric Change),当精调任务指标的变化量超过早停指标变化量时才认为发生变化。根据实际损失曲线进行决定。 |
早停指标稳定次数 | 早停策略选择ture时,显示此指标。早停指标稳定次数(Early Stopping Patience),早停指标连续不变化的次数。如果设置的稳定次数较小,早停策略会更敏感,可能在模型尚未充分训练时就停止训练;如果设置的稳定次数较大,早停策略会更宽松,允许模型有更多的训练周期来改善性能。 |
·ERNIE Speed
ERNIE Speed为百度自主研发的文心产业级知识增强大语言模型(高性能版),相较ERNIE Lite实现了基础模型的全面升级,在理解、生成、逻辑和记忆能力上有显著提升。
ERNIE-Speed-8K
训练方法 | 简单描述 |
---|---|
全量更新 | 全量更新在训练过程中对大模型的全部参数进行更新 |
LoRA | 在固定预训练大模型本身的参数的基础上,在保留自注意力模块中原始权重矩阵的基础上,对权重矩阵进行低秩分解,训练过程中只更新低秩部分的参数。 |
- 参数配置
超参数 | 简单描述 |
---|---|
迭代轮次 | 迭代轮次(Epoch),控制模型训练过程中遍历整个数据集的次数。建议设置在1-5之间,小数据集可增大Epoch以促进模型收敛。 |
学习率 | 学习率(Learning Rate),控制模型参数更新步长的速度。过高会导致模型难以收敛,过低则会导致模型收敛速度过慢,平台已给出默认推荐值,可根据经验调整。 |
序列长度 | 序列长度(Sequence Length),单条数据的最大长度,包括输入和输出。该长度在模型的训练和推理过程中全部适用,超过该长度的部分将在推理时自动截断,单位为token。如果数据集中的文本普遍较短,建议选择较短的序列长度以提高计算效率。 |
全局批大小 | 全局批大小(GlobalBatchsize),每次训练迭代使用的样本数,为了加快训练效率,多条样本会使用Packing尽可能拼接到一个序列长度内。 |
保存日志间隔 | 保存日志间隔(Logging Interval),设定模型训练过程中记录日志的间隔步数。合理设置可以平衡日志记录的详细程度和存储、处理资源的消耗。 |
预热比例 | 预热比例(Learning Rate Warmup),训练初期学习率预热步数占用总的训练步数的比例。学习率预热可以提高模型稳定性和收敛速度。 |
正则化系数 | 正则化系数(Weight Decay),控制正则化项对模型参数的影响强度。适当增大系数可以增强正则化效果,防止过拟合,但过高的系数可能导致模型欠拟合。 |
LoRA 策略中的秩 | 仅选择LoRA训练方法时设置,LoRA 策略中的秩(LoRA Rank),决定了微调过程中引入的低秩矩阵的复杂度。较小的秩可以减少参数数量,降低过拟合风险,但可能不足以捕捉任务所需的所有特征;较大的秩可能增强模型的表示能力,但会增加计算和存储负担。 |
LoRA所有线性层 | 仅选择LoRA训练方法时设置,LoRA所有线性层(LoRA in Linear),是否将 LoRA 策略应用在所有Linear层。如果资源充足且目标是最大程度地提升模型性能,可以尝试在所有线性层上应用 LoRA,但需注意监控过拟合风险。 |
伪多轮概率 | 伪多轮概率(Pseudo Multi-Round Probability),随机采用数据拼接的数据增强策略的概率。 |
Checkpoint保存个数 | Checkpoint保存个数(Number of Checkpoint),训练过程最终要保存的Checkpoint个数。Checkpoint保存可以在系统故障时从最近的Checkpoint中恢复训练,但保存Checkpoint会增加训练时长。 |
Checkpoint保存间隔数 | Checkpoint保存间隔数(Checkpoint Interval),训练过程中保存Checkpoint的间隔Step数。间隔太短可能导致频繁的Checkpoint操作增加训练时长,间隔太长则可能在故障时丢失更多的数据。 |
随机种子 | 随机种子(Random Seed),是在随机数生成算法中设定的一个初始值,用于确保随机数生成的可重复性。通过设置随机种子,可以在相同的算法和参数下,生成相同的随机数序列。 |
学习率调整计划 | 学习率调整计划(schedulerType),用于在训练过程中动态调整学习率,以优化模型的收敛速度和性能。根据模型的训练情况和任务需求,选择合适的学习率调整方式。 |
cosine 策略的波数 | cosine 策略的波数(Period of Cosine),波数定义了余弦函数周期的长短。减少波数可以使模型训练过程稳定,增加波数可以避免陷入局部最优。 |
polynomial 策略的末端 LR | polynomial 策略的末端 LR(Polynomial Decay End Learning Rate),指的是在多项式衰减策略中,学习率下降到最后所达到的最小值。这个值通常设置得较低,该值若生效需要比学习率小,保证在模型训练后期实现细致的优化。 |
polynomial 策略的幂数 | polynomial 策略的幂数(Polynomial Decay Power),是指在多项式衰减学习率调整策略中,用于控制学习率下降曲线陡峭程度的指数。幂数越大,可以避免陷入局部最优;幂数越小,可以使模型训练过程稳定。 |
验证步数 | 验证步数(Validation Steps),计算验证集Loss的间隔步数;为0时不开启验证,没有相关指标。 |
早停策略 | 早停策略(Early Stopping),监控精调任务的指标变化情况,指标连续不变则提前终止训练。 |
早停指标 | 早停策略选择ture时,显示此指标。早停指标(Early Stopping Metric),根据该监控指标决定任务是否早停。 |
早停指标变化量 | 早停策略选择ture时,显示此指标。早停指标变化量(Early Stopping Metric Change),当精调任务指标的变化量超过早停指标变化量时才认为发生变化。根据实际损失曲线进行决定。 |
早停指标稳定次数 | 早停策略选择ture时,显示此指标。早停指标稳定次数(Early Stopping Patience),早停指标连续不变化的次数。如果设置的稳定次数较小,早停策略会更敏感,可能在模型尚未充分训练时就停止训练;如果设置的稳定次数较大,早停策略会更宽松,允许模型有更多的训练周期来改善性能。 |
ERNIE-Speed-Pro-128K
训练方法 | 简单描述 |
---|---|
全量更新 | 全量更新在训练过程中对大模型的全部参数进行更新 |
LoRA | 在固定预训练大模型本身的参数的基础上,在保留自注意力模块中原始权重矩阵的基础上,对权重矩阵进行低秩分解,训练过程中只更新低秩部分的参数。 |
- 参数配置
超参数 | 简单描述 |
---|---|
迭代轮次 | 迭代轮次(Epoch),控制模型训练过程中遍历整个数据集的次数。建议设置在1-5之间,小数据集可增大Epoch以促进模型收敛。 |
学习率 | 学习率(Learning Rate),控制模型参数更新步长的速度。过高会导致模型难以收敛,过低则会导致模型收敛速度过慢,平台已给出默认推荐值,可根据经验调整。 |
序列长度 | 序列长度(Sequence Length),单条数据的最大长度,包括输入和输出。该长度在模型的训练和推理过程中全部适用,超过该长度的部分将在推理时自动截断,单位为token。如果数据集中的文本普遍较短,建议选择较短的序列长度以提高计算效率。 |
全局批大小 | 全局批大小(GlobalBatchsize),每次训练迭代使用的样本数,为了加快训练效率,多条样本会使用Packing尽可能拼接到一个序列长度内。 |
保存日志间隔 | 保存日志间隔(Logging Interval),设定模型训练过程中记录日志的间隔步数。合理设置可以平衡日志记录的详细程度和存储、处理资源的消耗。 |
预热比例 | 预热比例(Learning Rate Warmup),训练初期学习率预热步数占用总的训练步数的比例。学习率预热可以提高模型稳定性和收敛速度。 |
正则化系数 | 正则化系数(Weight Decay),控制正则化项对模型参数的影响强度。适当增大系数可以增强正则化效果,防止过拟合,但过高的系数可能导致模型欠拟合。 |
LoRA 策略中的秩 | 仅选择LoRA训练方法时设置,LoRA 策略中的秩(LoRA Rank),决定了微调过程中引入的低秩矩阵的复杂度。较小的秩可以减少参数数量,降低过拟合风险,但可能不足以捕捉任务所需的所有特征;较大的秩可能增强模型的表示能力,但会增加计算和存储负担。 |
LoRA所有线性层 | 仅选择LoRA训练方法时设置,LoRA所有线性层(LoRA in Linear),是否将 LoRA 策略应用在所有Linear层。如果资源充足且目标是最大程度地提升模型性能,可以尝试在所有线性层上应用 LoRA,但需注意监控过拟合风险。 |
伪多轮概率 | 伪多轮概率(Pseudo Multi-Round Probability),随机采用数据拼接的数据增强策略的概率。 |
Checkpoint保存个数 | Checkpoint保存个数(Number of Checkpoint),训练过程最终要保存的Checkpoint个数。Checkpoint保存可以在系统故障时从最近的Checkpoint中恢复训练,但保存Checkpoint会增加训练时长。 |
Checkpoint保存间隔数 | Checkpoint保存间隔数(Checkpoint Interval),训练过程中保存Checkpoint的间隔Step数。间隔太短可能导致频繁的Checkpoint操作增加训练时长,间隔太长则可能在故障时丢失更多的数据。 |
随机种子 | 随机种子(Random Seed),是在随机数生成算法中设定的一个初始值,用于确保随机数生成的可重复性。通过设置随机种子,可以在相同的算法和参数下,生成相同的随机数序列。 |
学习率调整计划 | 学习率调整计划(schedulerType),用于在训练过程中动态调整学习率,以优化模型的收敛速度和性能。根据模型的训练情况和任务需求,选择合适的学习率调整方式。 |
cosine 策略的波数 | cosine 策略的波数(Period of Cosine),波数定义了余弦函数周期的长短。减少波数可以使模型训练过程稳定,增加波数可以避免陷入局部最优。 |
polynomial 策略的末端 LR | polynomial 策略的末端 LR(Polynomial Decay End Learning Rate),指的是在多项式衰减策略中,学习率下降到最后所达到的最小值。这个值通常设置得较低,该值若生效需要比学习率小,保证在模型训练后期实现细致的优化。 |
polynomial 策略的幂数 | polynomial 策略的幂数(Polynomial Decay Power),是指在多项式衰减学习率调整策略中,用于控制学习率下降曲线陡峭程度的指数。幂数越大,可以避免陷入局部最优;幂数越小,可以使模型训练过程稳定。 |
验证步数 | 验证步数(Validation Steps),计算验证集Loss的间隔步数;为0时不开启验证,没有相关指标。 |
早停策略 | 早停策略(Early Stopping),监控精调任务的指标变化情况,指标连续不变则提前终止训练。 |
早停指标 | 早停策略选择ture时,显示此指标。早停指标(Early Stopping Metric),根据该监控指标决定任务是否早停。 |
早停指标变化量 | 早停策略选择ture时,显示此指标。早停指标变化量(Early Stopping Metric Change),当精调任务指标的变化量超过早停指标变化量时才认为发生变化。根据实际损失曲线进行决定。 |
早停指标稳定次数 | 早停策略选择ture时,显示此指标。早停指标稳定次数(Early Stopping Patience),早停指标连续不变化的次数。如果设置的稳定次数较小,早停策略会更敏感,可能在模型尚未充分训练时就停止训练;如果设置的稳定次数较大,早停策略会更宽松,允许模型有更多的训练周期来改善性能。 |
·ERNIE Lite
百度自行研发的大语言模型,覆盖海量中文数据,具有更强的对话问答、内容创作生成等能力。
ERNIE-Lite-8K-0308
2024年3月8日发布版本,对模型效果进行了优化,支持8K上下文长度。
训练方法 | 简单描述 |
---|---|
全量更新 | 全量更新在训练过程中对大模型的全部参数进行更新 |
LoRA | LoRA在固定预训练大模型本身的参数的基础上,在保留自注意力模块中原始权重矩阵的基础上,对权重矩阵进行低秩分解,训练过程中只更新低秩部分的参数。 |
- 参数配置
超参数 | 简单描述 |
---|---|
迭代轮次 | 迭代轮次(Epoch),控制模型训练过程中遍历整个数据集的次数。建议设置在1-5之间,小数据集可增大Epoch以促进模型收敛。 |
学习率 | 学习率(Learning Rate),控制模型参数更新步长的速度。过高会导致模型难以收敛,过低则会导致模型收敛速度过慢,平台已给出默认推荐值,可根据经验调整。 |
序列长度 | 序列长度(Sequence Length),单条数据的最大长度,包括输入和输出。该长度在模型的训练和推理过程中全部适用,超过该长度的部分将在推理时自动截断,单位为token。如果数据集中的文本普遍较短,建议选择较短的序列长度以提高计算效率。 |
全局批大小 | 全局批大小(GlobalBatchsize),每次训练迭代使用的样本数,为了加快训练效率,多条样本会使用Packing尽可能拼接到一个序列长度内。 |
保存日志间隔 | 保存日志间隔(Logging Interval),设定模型训练过程中记录日志的间隔步数。合理设置可以平衡日志记录的详细程度和存储、处理资源的消耗。 |
预热比例 | 预热比例(Learning Rate Warmup),训练初期学习率预热步数占用总的训练步数的比例。学习率预热可以提高模型稳定性和收敛速度。 |
正则化系数 | 正则化系数(Weight Decay),控制正则化项对模型参数的影响强度。适当增大系数可以增强正则化效果,防止过拟合,但过高的系数可能导致模型欠拟合。 |
LoRA 策略中的秩 | 仅选择LoRA训练方法时设置,LoRA 策略中的秩(LoRA Rank),决定了微调过程中引入的低秩矩阵的复杂度。较小的秩可以减少参数数量,降低过拟合风险,但可能不足以捕捉任务所需的所有特征;较大的秩可能增强模型的表示能力,但会增加计算和存储负担。 |
LoRA所有线性层 | 仅选择LoRA训练方法时设置,LoRA所有线性层(LoRA in Linear),是否将 LoRA 策略应用在所有Linear层。如果资源充足且目标是最大程度地提升模型性能,可以尝试在所有线性层上应用 LoRA,但需注意监控过拟合风险。 |
伪多轮概率 | 伪多轮概率(Pseudo Multi-Round Probability),随机采用数据拼接的数据增强策略的概率。 |
Checkpoint保存个数 | Checkpoint保存个数(Number of Checkpoint),训练过程最终要保存的Checkpoint个数。Checkpoint保存可以在系统故障时从最近的Checkpoint中恢复训练,但保存Checkpoint会增加训练时长。 |
Checkpoint保存间隔数 | Checkpoint保存间隔数(Checkpoint Interval),训练过程中保存Checkpoint的间隔Step数。间隔太短可能导致频繁的Checkpoint操作增加训练时长,间隔太长则可能在故障时丢失更多的数据。 |
随机种子 | 随机种子(Random Seed),是在随机数生成算法中设定的一个初始值,用于确保随机数生成的可重复性。通过设置随机种子,可以在相同的算法和参数下,生成相同的随机数序列。 |
学习率调整计划 | 学习率调整计划(schedulerType),用于在训练过程中动态调整学习率,以优化模型的收敛速度和性能。根据模型的训练情况和任务需求,选择合适的学习率调整方式。 |
cosine 策略的波数 | cosine 策略的波数(Period of Cosine),波数定义了余弦函数周期的长短。减少波数可以使模型训练过程稳定,增加波数可以避免陷入局部最优。 |
polynomial 策略的末端 LR | polynomial 策略的末端 LR(Polynomial Decay End Learning Rate),指的是在多项式衰减策略中,学习率下降到最后所达到的最小值。这个值通常设置得较低,该值若生效需要比学习率小,保证在模型训练后期实现细致的优化。 |
polynomial 策略的幂数 | polynomial 策略的幂数(Polynomial Decay Power),是指在多项式衰减学习率调整策略中,用于控制学习率下降曲线陡峭程度的指数。幂数越大,可以避免陷入局部最优;幂数越小,可以使模型训练过程稳定。 |
验证步数 | 验证步数(Validation Steps),计算验证集Loss的间隔步数;为0时不开启验证,没有相关指标。 |
早停策略 | 早停策略(Early Stopping),监控精调任务的指标变化情况,指标连续不变则提前终止训练。 |
早停指标 | 早停策略选择ture时,显示此指标。早停指标(Early Stopping Metric),根据该监控指标决定任务是否早停。 |
早停指标变化量 | 早停策略选择ture时,显示此指标。早停指标变化量(Early Stopping Metric Change),当精调任务指标的变化量超过早停指标变化量时才认为发生变化。根据实际损失曲线进行决定。 |
早停指标稳定次数 | 早停策略选择ture时,显示此指标。早停指标稳定次数(Early Stopping Patience),早停指标连续不变化的次数。如果设置的稳定次数较小,早停策略会更敏感,可能在模型尚未充分训练时就停止训练;如果设置的稳定次数较大,早停策略会更宽松,允许模型有更多的训练周期来改善性能。 |
ERNIE-Lite-128K-0722
单条数据支持128k tokens。模型基于海量长文本数据训练,具有优秀的长文本创作能力。
训练方法 | 简单描述 |
---|---|
全量更新 | 全量更新在训练过程中对大模型的全部参数进行更新 |
LoRA | LoRA在固定预训练大模型本身的参数的基础上,在保留自注意力模块中原始权重矩阵的基础上,对权重矩阵进行低秩分解,训练过程中只更新低秩部分的参数。 |
- 参数配置
超参数 | 简单描述 |
---|---|
迭代轮次 | 迭代轮次(Epoch),控制模型训练过程中遍历整个数据集的次数。建议设置在1-5之间,小数据集可增大Epoch以促进模型收敛。 |
学习率 | 学习率(Learning Rate),控制模型参数更新步长的速度。过高会导致模型难以收敛,过低则会导致模型收敛速度过慢,平台已给出默认推荐值,可根据经验调整。 |
序列长度 | 序列长度(Sequence Length),单条数据的最大长度,包括输入和输出。该长度在模型的训练和推理过程中全部适用,超过该长度的部分将在推理时自动截断,单位为token。如果数据集中的文本普遍较短,建议选择较短的序列长度以提高计算效率。 |
全局批大小 | 全局批大小(GlobalBatchsize),每次训练迭代使用的样本数,为了加快训练效率,多条样本会使用Packing尽可能拼接到一个序列长度内。 |
保存日志间隔 | 保存日志间隔(Logging Interval),设定模型训练过程中记录日志的间隔步数。合理设置可以平衡日志记录的详细程度和存储、处理资源的消耗。 |
预热比例 | 预热比例(Learning Rate Warmup),训练初期学习率预热步数占用总的训练步数的比例。学习率预热可以提高模型稳定性和收敛速度。 |
正则化系数 | 正则化系数(Weight Decay),控制正则化项对模型参数的影响强度。适当增大系数可以增强正则化效果,防止过拟合,但过高的系数可能导致模型欠拟合。 |
LoRA 策略中的秩 | 仅选择LoRA训练方法时设置,LoRA 策略中的秩(LoRA Rank),决定了微调过程中引入的低秩矩阵的复杂度。较小的秩可以减少参数数量,降低过拟合风险,但可能不足以捕捉任务所需的所有特征;较大的秩可能增强模型的表示能力,但会增加计算和存储负担。 |
LoRA所有线性层 | 仅选择LoRA训练方法时设置,LoRA所有线性层(LoRA in Linear),是否将 LoRA 策略应用在所有Linear层。如果资源充足且目标是最大程度地提升模型性能,可以尝试在所有线性层上应用 LoRA,但需注意监控过拟合风险。 |
伪多轮概率 | 伪多轮概率(Pseudo Multi-Round Probability),随机采用数据拼接的数据增强策略的概率。 |
Checkpoint保存个数 | Checkpoint保存个数(Number of Checkpoint),训练过程最终要保存的Checkpoint个数。Checkpoint保存可以在系统故障时从最近的Checkpoint中恢复训练,但保存Checkpoint会增加训练时长。 |
Checkpoint保存间隔数 | Checkpoint保存间隔数(Checkpoint Interval),训练过程中保存Checkpoint的间隔Step数。间隔太短可能导致频繁的Checkpoint操作增加训练时长,间隔太长则可能在故障时丢失更多的数据。 |
随机种子 | 随机种子(Random Seed),是在随机数生成算法中设定的一个初始值,用于确保随机数生成的可重复性。通过设置随机种子,可以在相同的算法和参数下,生成相同的随机数序列。 |
学习率调整计划 | 学习率调整计划(schedulerType),用于在训练过程中动态调整学习率,以优化模型的收敛速度和性能。根据模型的训练情况和任务需求,选择合适的学习率调整方式。 |
cosine 策略的波数 | cosine 策略的波数(Period of Cosine),波数定义了余弦函数周期的长短。减少波数可以使模型训练过程稳定,增加波数可以避免陷入局部最优。 |
polynomial 策略的末端 LR | polynomial 策略的末端 LR(Polynomial Decay End Learning Rate),指的是在多项式衰减策略中,学习率下降到最后所达到的最小值。这个值通常设置得较低,该值若生效需要比学习率小,保证在模型训练后期实现细致的优化。 |
polynomial 策略的幂数 | polynomial 策略的幂数(Polynomial Decay Power),是指在多项式衰减学习率调整策略中,用于控制学习率下降曲线陡峭程度的指数。幂数越大,可以避免陷入局部最优;幂数越小,可以使模型训练过程稳定。 |
验证步数 | 验证步数(Validation Steps),计算验证集Loss的间隔步数;为0时不开启验证,没有相关指标。 |
早停策略 | 早停策略(Early Stopping),监控精调任务的指标变化情况,指标连续不变则提前终止训练。 |
早停指标 | 早停策略选择ture时,显示此指标。早停指标(Early Stopping Metric),根据该监控指标决定任务是否早停。 |
早停指标变化量 | 早停策略选择ture时,显示此指标。早停指标变化量(Early Stopping Metric Change),当精调任务指标的变化量超过早停指标变化量时才认为发生变化。根据实际损失曲线进行决定。 |
早停指标稳定次数 | 早停策略选择ture时,显示此指标。早停指标稳定次数(Early Stopping Patience),早停指标连续不变化的次数。如果设置的稳定次数较小,早停策略会更敏感,可能在模型尚未充分训练时就停止训练;如果设置的稳定次数较大,早停策略会更宽松,允许模型有更多的训练周期来改善性能。 |
ERNIE-Lite-128K-0419
单条数据支持128k tokens。模型基于海量长文本数据训练,具有优秀的长文本创作能力。
训练方法 | 简单描述 |
---|---|
全量更新 | 全量更新在训练过程中对大模型的全部参数进行更新 |
- 参数配置
超参数 | 简单描述 |
---|---|
迭代轮次 | 迭代轮次(Epoch),控制模型训练过程中遍历整个数据集的次数。建议设置在1-5之间,小数据集可增大Epoch以促进模型收敛。 |
学习率 | 学习率(Learning Rate),控制模型参数更新步长的速度。过高会导致模型难以收敛,过低则会导致模型收敛速度过慢,平台已给出默认推荐值,可根据经验调整。 |
序列长度 | 序列长度(Sequence Length),单条数据的最大长度,包括输入和输出。该长度在模型的训练和推理过程中全部适用,超过该长度的部分将在推理时自动截断,单位为token。如果数据集中的文本普遍较短,建议选择较短的序列长度以提高计算效率。 |
全局批大小 | 全局批大小(GlobalBatchsize),每次训练迭代使用的样本数,为了加快训练效率,多条样本会使用Packing尽可能拼接到一个序列长度内。 |
保存日志间隔 | 保存日志间隔(Logging Interval),设定模型训练过程中记录日志的间隔步数。合理设置可以平衡日志记录的详细程度和存储、处理资源的消耗。 |
预热比例 | 预热比例(Learning Rate Warmup),训练初期学习率预热步数占用总的训练步数的比例。学习率预热可以提高模型稳定性和收敛速度。 |
正则化系数 | 正则化系数(Weight Decay),控制正则化项对模型参数的影响强度。适当增大系数可以增强正则化效果,防止过拟合,但过高的系数可能导致模型欠拟合。 |
LoRA 策略中的秩 | 仅选择LoRA训练方法时设置,LoRA 策略中的秩(LoRA Rank),决定了微调过程中引入的低秩矩阵的复杂度。较小的秩可以减少参数数量,降低过拟合风险,但可能不足以捕捉任务所需的所有特征;较大的秩可能增强模型的表示能力,但会增加计算和存储负担。 |
LoRA所有线性层 | 仅选择LoRA训练方法时设置,LoRA所有线性层(LoRA in Linear),是否将 LoRA 策略应用在所有Linear层。如果资源充足且目标是最大程度地提升模型性能,可以尝试在所有线性层上应用 LoRA,但需注意监控过拟合风险。 |
伪多轮概率 | 伪多轮概率(Pseudo Multi-Round Probability),随机采用数据拼接的数据增强策略的概率。 |
Checkpoint保存个数 | Checkpoint保存个数(Number of Checkpoint),训练过程最终要保存的Checkpoint个数。Checkpoint保存可以在系统故障时从最近的Checkpoint中恢复训练,但保存Checkpoint会增加训练时长。 |
Checkpoint保存间隔数 | Checkpoint保存间隔数(Checkpoint Interval),训练过程中保存Checkpoint的间隔Step数。间隔太短可能导致频繁的Checkpoint操作增加训练时长,间隔太长则可能在故障时丢失更多的数据。 |
随机种子 | 随机种子(Random Seed),是在随机数生成算法中设定的一个初始值,用于确保随机数生成的可重复性。通过设置随机种子,可以在相同的算法和参数下,生成相同的随机数序列。 |
学习率调整计划 | 学习率调整计划(schedulerType),用于在训练过程中动态调整学习率,以优化模型的收敛速度和性能。根据模型的训练情况和任务需求,选择合适的学习率调整方式。 |
cosine 策略的波数 | cosine 策略的波数(Period of Cosine),波数定义了余弦函数周期的长短。减少波数可以使模型训练过程稳定,增加波数可以避免陷入局部最优。 |
polynomial 策略的末端 LR | polynomial 策略的末端 LR(Polynomial Decay End Learning Rate),指的是在多项式衰减策略中,学习率下降到最后所达到的最小值。这个值通常设置得较低,该值若生效需要比学习率小,保证在模型训练后期实现细致的优化。 |
polynomial 策略的幂数 | polynomial 策略的幂数(Polynomial Decay Power),是指在多项式衰减学习率调整策略中,用于控制学习率下降曲线陡峭程度的指数。幂数越大,可以避免陷入局部最优;幂数越小,可以使模型训练过程稳定。 |
验证步数 | 验证步数(Validation Steps),计算验证集Loss的间隔步数;为0时不开启验证,没有相关指标。 |
早停策略 | 早停策略(Early Stopping),监控精调任务的指标变化情况,指标连续不变则提前终止训练。 |
早停指标 | 早停策略选择ture时,显示此指标。早停指标(Early Stopping Metric),根据该监控指标决定任务是否早停。 |
早停指标变化量 | 早停策略选择ture时,显示此指标。早停指标变化量(Early Stopping Metric Change),当精调任务指标的变化量超过早停指标变化量时才认为发生变化。根据实际损失曲线进行决定。 |
早停指标稳定次数 | 早停策略选择ture时,显示此指标。早停指标稳定次数(Early Stopping Patience),早停指标连续不变化的次数。如果设置的稳定次数较小,早停策略会更敏感,可能在模型尚未充分训练时就停止训练;如果设置的稳定次数较大,早停策略会更宽松,允许模型有更多的训练周期来改善性能。 |
·ERNIE Character
百度自研的垂直场景大语言模型,适合游戏NPC、客服对话、对话角色扮演等应用场景,人设风格更为鲜明、一致,指令遵循能力更强,推理性能更优。
ERNIE-Character-Fiction-8K-1028
剧情主动性、深度扮演能力、现代潮流度、边界安全问题的灵活度等能力得到增强,涵盖现代都市、古代武侠等的角色扮演场景也更加丰富。
训练方法 | 简单描述 |
---|---|
全量更新 | 全量更新在训练过程中对大模型的全部参数进行更新 |
LoRA | LoRA在固定预训练大模型本身的参数的基础上,在保留自注意力模块中原始权重矩阵的基础上,对权重矩阵进行低秩分解,训练过程中只更新低秩部分的参数。 |
- 参数配置
超参数 | 简单描述 |
---|---|
迭代轮次 | 迭代轮次(Epoch),控制模型训练过程中遍历整个数据集的次数。建议设置在1-5之间,小数据集可增大Epoch以促进模型收敛。 |
学习率 | 学习率(Learning Rate),控制模型参数更新步长的速度。过高会导致模型难以收敛,过低则会导致模型收敛速度过慢,平台已给出默认推荐值,可根据经验调整。 |
序列长度 | 序列长度(Sequence Length),单条数据的最大长度,包括输入和输出。该长度在模型的训练和推理过程中全部适用,超过该长度的部分将在推理时自动截断,单位为token。如果数据集中的文本普遍较短,建议选择较短的序列长度以提高计算效率。 |
全局批大小 | 全局批大小(GlobalBatchsize),每次训练迭代使用的样本数,为了加快训练效率,多条样本会使用Packing尽可能拼接到一个序列长度内。 |
保存日志间隔 | 保存日志间隔(Logging Interval),设定模型训练过程中记录日志的间隔步数。合理设置可以平衡日志记录的详细程度和存储、处理资源的消耗。 |
预热比例 | 预热比例(Learning Rate Warmup),训练初期学习率预热步数占用总的训练步数的比例。学习率预热可以提高模型稳定性和收敛速度。 |
正则化系数 | 正则化系数(Weight Decay),控制正则化项对模型参数的影响强度。适当增大系数可以增强正则化效果,防止过拟合,但过高的系数可能导致模型欠拟合。 |
LoRA 策略中的秩 | 仅选择LoRA训练方法时设置,LoRA 策略中的秩(LoRA Rank),决定了微调过程中引入的低秩矩阵的复杂度。较小的秩可以减少参数数量,降低过拟合风险,但可能不足以捕捉任务所需的所有特征;较大的秩可能增强模型的表示能力,但会增加计算和存储负担。 |
LoRA所有线性层 | 仅选择LoRA训练方法时设置,LoRA所有线性层(LoRA in Linear),是否将 LoRA 策略应用在所有Linear层。如果资源充足且目标是最大程度地提升模型性能,可以尝试在所有线性层上应用 LoRA,但需注意监控过拟合风险。 |
伪多轮概率 | 伪多轮概率(Pseudo Multi-Round Probability),随机采用数据拼接的数据增强策略的概率。 |
Checkpoint保存个数 | Checkpoint保存个数(Number of Checkpoint),训练过程最终要保存的Checkpoint个数。Checkpoint保存可以在系统故障时从最近的Checkpoint中恢复训练,但保存Checkpoint会增加训练时长。 |
Checkpoint保存间隔数 | Checkpoint保存间隔数(Checkpoint Interval),训练过程中保存Checkpoint的间隔Step数。间隔太短可能导致频繁的Checkpoint操作增加训练时长,间隔太长则可能在故障时丢失更多的数据。 |
随机种子 | 随机种子(Random Seed),是在随机数生成算法中设定的一个初始值,用于确保随机数生成的可重复性。通过设置随机种子,可以在相同的算法和参数下,生成相同的随机数序列。 |
学习率调整计划 | 学习率调整计划(schedulerType),用于在训练过程中动态调整学习率,以优化模型的收敛速度和性能。根据模型的训练情况和任务需求,选择合适的学习率调整方式。 |
cosine 策略的波数 | cosine 策略的波数(Period of Cosine),波数定义了余弦函数周期的长短。减少波数可以使模型训练过程稳定,增加波数可以避免陷入局部最优。 |
polynomial 策略的末端 LR | polynomial 策略的末端 LR(Polynomial Decay End Learning Rate),指的是在多项式衰减策略中,学习率下降到最后所达到的最小值。这个值通常设置得较低,该值若生效需要比学习率小,保证在模型训练后期实现细致的优化。 |
polynomial 策略的幂数 | polynomial 策略的幂数(Polynomial Decay Power),是指在多项式衰减学习率调整策略中,用于控制学习率下降曲线陡峭程度的指数。幂数越大,可以避免陷入局部最优;幂数越小,可以使模型训练过程稳定。 |
验证步数 | 验证步数(Validation Steps),计算验证集Loss的间隔步数;为0时不开启验证,没有相关指标。 |
早停策略 | 早停策略(Early Stopping),监控精调任务的指标变化情况,指标连续不变则提前终止训练。 |
早停指标 | 早停策略选择ture时,显示此指标。早停指标(Early Stopping Metric),根据该监控指标决定任务是否早停。 |
早停指标变化量 | 早停策略选择ture时,显示此指标。早停指标变化量(Early Stopping Metric Change),当精调任务指标的变化量超过早停指标变化量时才认为发生变化。根据实际损失曲线进行决定。 |
早停指标稳定次数 | 早停策略选择ture时,显示此指标。早停指标稳定次数(Early Stopping Patience),早停指标连续不变化的次数。如果设置的稳定次数较小,早停策略会更敏感,可能在模型尚未充分训练时就停止训练;如果设置的稳定次数较大,早停策略会更宽松,允许模型有更多的训练周期来改善性能。 |
ERNIE-Character-8K-0321
单条数据支持8192 tokens。2024年3月21日发布的初始版本。
训练方法 | 简单描述 |
---|---|
全量更新 | 全量更新在训练过程中对大模型的全部参数进行更新 |
LoRA | LoRA在固定预训练大模型本身的参数的基础上,在保留自注意力模块中原始权重矩阵的基础上,对权重矩阵进行低秩分解,训练过程中只更新低秩部分的参数。 |
- 参数配置
超参数 | 简单描述 |
---|---|
迭代轮次 | 迭代轮次(Epoch),控制模型训练过程中遍历整个数据集的次数。建议设置在1-5之间,小数据集可增大Epoch以促进模型收敛。 |
学习率 | 学习率(Learning Rate),控制模型参数更新步长的速度。过高会导致模型难以收敛,过低则会导致模型收敛速度过慢,平台已给出默认推荐值,可根据经验调整。 |
序列长度 | 序列长度(Sequence Length),单条数据的最大长度,包括输入和输出。该长度在模型的训练和推理过程中全部适用,超过该长度的部分将在推理时自动截断,单位为token。如果数据集中的文本普遍较短,建议选择较短的序列长度以提高计算效率。 |
全局批大小 | 全局批大小(GlobalBatchsize),每次训练迭代使用的样本数,为了加快训练效率,多条样本会使用Packing尽可能拼接到一个序列长度内。 |
保存日志间隔 | 保存日志间隔(Logging Interval),设定模型训练过程中记录日志的间隔步数。合理设置可以平衡日志记录的详细程度和存储、处理资源的消耗。 |
预热比例 | 预热比例(Learning Rate Warmup),训练初期学习率预热步数占用总的训练步数的比例。学习率预热可以提高模型稳定性和收敛速度。 |
正则化系数 | 正则化系数(Weight Decay),控制正则化项对模型参数的影响强度。适当增大系数可以增强正则化效果,防止过拟合,但过高的系数可能导致模型欠拟合。 |
LoRA 策略中的秩 | 仅选择LoRA训练方法时设置,LoRA 策略中的秩(LoRA Rank),决定了微调过程中引入的低秩矩阵的复杂度。较小的秩可以减少参数数量,降低过拟合风险,但可能不足以捕捉任务所需的所有特征;较大的秩可能增强模型的表示能力,但会增加计算和存储负担。 |
LoRA所有线性层 | 仅选择LoRA训练方法时设置,LoRA所有线性层(LoRA in Linear),是否将 LoRA 策略应用在所有Linear层。如果资源充足且目标是最大程度地提升模型性能,可以尝试在所有线性层上应用 LoRA,但需注意监控过拟合风险。 |
伪多轮概率 | 伪多轮概率(Pseudo Multi-Round Probability),随机采用数据拼接的数据增强策略的概率。 |
Checkpoint保存个数 | Checkpoint保存个数(Number of Checkpoint),训练过程最终要保存的Checkpoint个数。Checkpoint保存可以在系统故障时从最近的Checkpoint中恢复训练,但保存Checkpoint会增加训练时长。 |
Checkpoint保存间隔数 | Checkpoint保存间隔数(Checkpoint Interval),训练过程中保存Checkpoint的间隔Step数。间隔太短可能导致频繁的Checkpoint操作增加训练时长,间隔太长则可能在故障时丢失更多的数据。 |
随机种子 | 随机种子(Random Seed),是在随机数生成算法中设定的一个初始值,用于确保随机数生成的可重复性。通过设置随机种子,可以在相同的算法和参数下,生成相同的随机数序列。 |
学习率调整计划 | 学习率调整计划(schedulerType),用于在训练过程中动态调整学习率,以优化模型的收敛速度和性能。根据模型的训练情况和任务需求,选择合适的学习率调整方式。 |
cosine 策略的波数 | cosine 策略的波数(Period of Cosine),波数定义了余弦函数周期的长短。减少波数可以使模型训练过程稳定,增加波数可以避免陷入局部最优。 |
polynomial 策略的末端 LR | polynomial 策略的末端 LR(Polynomial Decay End Learning Rate),指的是在多项式衰减策略中,学习率下降到最后所达到的最小值。这个值通常设置得较低,该值若生效需要比学习率小,保证在模型训练后期实现细致的优化。 |
polynomial 策略的幂数 | polynomial 策略的幂数(Polynomial Decay Power),是指在多项式衰减学习率调整策略中,用于控制学习率下降曲线陡峭程度的指数。幂数越大,可以避免陷入局部最优;幂数越小,可以使模型训练过程稳定。 |
验证步数 | 验证步数(Validation Steps),计算验证集Loss的间隔步数;为0时不开启验证,没有相关指标。 |
早停策略 | 早停策略(Early Stopping),监控精调任务的指标变化情况,指标连续不变则提前终止训练。 |
早停指标 | 早停策略选择ture时,显示此指标。早停指标(Early Stopping Metric),根据该监控指标决定任务是否早停。 |
早停指标变化量 | 早停策略选择ture时,显示此指标。早停指标变化量(Early Stopping Metric Change),当精调任务指标的变化量超过早停指标变化量时才认为发生变化。根据实际损失曲线进行决定。 |
早停指标稳定次数 | 早停策略选择ture时,显示此指标。早停指标稳定次数(Early Stopping Patience),早停指标连续不变化的次数。如果设置的稳定次数较小,早停策略会更敏感,可能在模型尚未充分训练时就停止训练;如果设置的稳定次数较大,早停策略会更宽松,允许模型有更多的训练周期来改善性能。 |
ERNIE-Character-Fiction-8K
单条数据支持8192 tokens。相比ERNIE-Character-8K-0321,在情节演绎和括号文学等指令遵循能力更强。
训练方法 | 简单描述 |
---|---|
全量更新 | 全量更新在训练过程中对大模型的全部参数进行更新 |
LoRA | LoRA在固定预训练大模型本身的参数的基础上,在保留自注意力模块中原始权重矩阵的基础上,对权重矩阵进行低秩分解,训练过程中只更新低秩部分的参数。 |
- 参数配置
超参数 | 简单描述 |
---|---|
迭代轮次 | 迭代轮次(Epoch),控制模型训练过程中遍历整个数据集的次数。建议设置在1-5之间,小数据集可增大Epoch以促进模型收敛。 |
学习率 | 学习率(Learning Rate),控制模型参数更新步长的速度。过高会导致模型难以收敛,过低则会导致模型收敛速度过慢,平台已给出默认推荐值,可根据经验调整。 |
序列长度 | 序列长度(Sequence Length),单条数据的最大长度,包括输入和输出。该长度在模型的训练和推理过程中全部适用,超过该长度的部分将在推理时自动截断,单位为token。如果数据集中的文本普遍较短,建议选择较短的序列长度以提高计算效率。 |
全局批大小 | 全局批大小(GlobalBatchsize),每次训练迭代使用的样本数,为了加快训练效率,多条样本会使用Packing尽可能拼接到一个序列长度内。 |
保存日志间隔 | 保存日志间隔(Logging Interval),设定模型训练过程中记录日志的间隔步数。合理设置可以平衡日志记录的详细程度和存储、处理资源的消耗。 |
预热比例 | 预热比例(Learning Rate Warmup),训练初期学习率预热步数占用总的训练步数的比例。学习率预热可以提高模型稳定性和收敛速度。 |
正则化系数 | 正则化系数(Weight Decay),控制正则化项对模型参数的影响强度。适当增大系数可以增强正则化效果,防止过拟合,但过高的系数可能导致模型欠拟合。 |
LoRA 策略中的秩 | 仅选择LoRA训练方法时设置,LoRA 策略中的秩(LoRA Rank),决定了微调过程中引入的低秩矩阵的复杂度。较小的秩可以减少参数数量,降低过拟合风险,但可能不足以捕捉任务所需的所有特征;较大的秩可能增强模型的表示能力,但会增加计算和存储负担。 |
LoRA所有线性层 | 仅选择LoRA训练方法时设置,LoRA所有线性层(LoRA in Linear),是否将 LoRA 策略应用在所有Linear层。如果资源充足且目标是最大程度地提升模型性能,可以尝试在所有线性层上应用 LoRA,但需注意监控过拟合风险。 |
伪多轮概率 | 伪多轮概率(Pseudo Multi-Round Probability),随机采用数据拼接的数据增强策略的概率。 |
Checkpoint保存个数 | Checkpoint保存个数(Number of Checkpoint),训练过程最终要保存的Checkpoint个数。Checkpoint保存可以在系统故障时从最近的Checkpoint中恢复训练,但保存Checkpoint会增加训练时长。 |
Checkpoint保存间隔数 | Checkpoint保存间隔数(Checkpoint Interval),训练过程中保存Checkpoint的间隔Step数。间隔太短可能导致频繁的Checkpoint操作增加训练时长,间隔太长则可能在故障时丢失更多的数据。 |
随机种子 | 随机种子(Random Seed),是在随机数生成算法中设定的一个初始值,用于确保随机数生成的可重复性。通过设置随机种子,可以在相同的算法和参数下,生成相同的随机数序列。 |
学习率调整计划 | 学习率调整计划(schedulerType),用于在训练过程中动态调整学习率,以优化模型的收敛速度和性能。根据模型的训练情况和任务需求,选择合适的学习率调整方式。 |
cosine 策略的波数 | cosine 策略的波数(Period of Cosine),波数定义了余弦函数周期的长短。减少波数可以使模型训练过程稳定,增加波数可以避免陷入局部最优。 |
polynomial 策略的末端 LR | polynomial 策略的末端 LR(Polynomial Decay End Learning Rate),指的是在多项式衰减策略中,学习率下降到最后所达到的最小值。这个值通常设置得较低,该值若生效需要比学习率小,保证在模型训练后期实现细致的优化。 |
polynomial 策略的幂数 | polynomial 策略的幂数(Polynomial Decay Power),是指在多项式衰减学习率调整策略中,用于控制学习率下降曲线陡峭程度的指数。幂数越大,可以避免陷入局部最优;幂数越小,可以使模型训练过程稳定。 |
验证步数 | 验证步数(Validation Steps),计算验证集Loss的间隔步数;为0时不开启验证,没有相关指标。 |
早停策略 | 早停策略(Early Stopping),监控精调任务的指标变化情况,指标连续不变则提前终止训练。 |
早停指标 | 早停策略选择ture时,显示此指标。早停指标(Early Stopping Metric),根据该监控指标决定任务是否早停。 |
早停指标变化量 | 早停策略选择ture时,显示此指标。早停指标变化量(Early Stopping Metric Change),当精调任务指标的变化量超过早停指标变化量时才认为发生变化。根据实际损失曲线进行决定。 |
早停指标稳定次数 | 早停策略选择ture时,显示此指标。早停指标稳定次数(Early Stopping Patience),早停指标连续不变化的次数。如果设置的稳定次数较小,早停策略会更敏感,可能在模型尚未充分训练时就停止训练;如果设置的稳定次数较大,早停策略会更宽松,允许模型有更多的训练周期来改善性能。 |
·ERNIE Tiny
ERNIE-Tiny-8K
2024年3月8日发布的初始版本,支持8K上下文长度。
训练方法 | 简单描述 |
---|---|
全量更新 | 全量更新在训练过程中对大模型的全部参数进行更新 |
LoRA | LoRA在固定预训练大模型本身的参数的基础上,在保留自注意力模块中原始权重矩阵的基础上,对权重矩阵进行低秩分解,训练过程中只更新低秩部分的参数。 |
- 参数配置
超参数 | 简单描述 |
---|---|
迭代轮次 | 迭代轮次(Epoch),控制模型训练过程中遍历整个数据集的次数。建议设置在1-5之间,小数据集可增大Epoch以促进模型收敛。 |
学习率 | 学习率(Learning Rate),控制模型参数更新步长的速度。过高会导致模型难以收敛,过低则会导致模型收敛速度过慢,平台已给出默认推荐值,可根据经验调整。 |
序列长度 | 序列长度(Sequence Length),单条数据的最大长度,包括输入和输出。该长度在模型的训练和推理过程中全部适用,超过该长度的部分将在推理时自动截断,单位为token。如果数据集中的文本普遍较短,建议选择较短的序列长度以提高计算效率。 |
全局批大小 | 全局批大小(GlobalBatchsize),每次训练迭代使用的样本数,为了加快训练效率,多条样本会使用Packing尽可能拼接到一个序列长度内。 |
保存日志间隔 | 保存日志间隔(Logging Interval),设定模型训练过程中记录日志的间隔步数。合理设置可以平衡日志记录的详细程度和存储、处理资源的消耗。 |
预热比例 | 预热比例(Learning Rate Warmup),训练初期学习率预热步数占用总的训练步数的比例。学习率预热可以提高模型稳定性和收敛速度。 |
正则化系数 | 正则化系数(Weight Decay),控制正则化项对模型参数的影响强度。适当增大系数可以增强正则化效果,防止过拟合,但过高的系数可能导致模型欠拟合。 |
LoRA 策略中的秩 | 仅选择LoRA训练方法时设置,LoRA 策略中的秩(LoRA Rank),决定了微调过程中引入的低秩矩阵的复杂度。较小的秩可以减少参数数量,降低过拟合风险,但可能不足以捕捉任务所需的所有特征;较大的秩可能增强模型的表示能力,但会增加计算和存储负担。 |
LoRA所有线性层 | 仅选择LoRA训练方法时设置,LoRA所有线性层(LoRA in Linear),是否将 LoRA 策略应用在所有Linear层。如果资源充足且目标是最大程度地提升模型性能,可以尝试在所有线性层上应用 LoRA,但需注意监控过拟合风险。 |
伪多轮概率 | 伪多轮概率(Pseudo Multi-Round Probability),随机采用数据拼接的数据增强策略的概率。 |
Checkpoint保存个数 | Checkpoint保存个数(Number of Checkpoint),训练过程最终要保存的Checkpoint个数。Checkpoint保存可以在系统故障时从最近的Checkpoint中恢复训练,但保存Checkpoint会增加训练时长。 |
Checkpoint保存间隔数 | Checkpoint保存间隔数(Checkpoint Interval),训练过程中保存Checkpoint的间隔Step数。间隔太短可能导致频繁的Checkpoint操作增加训练时长,间隔太长则可能在故障时丢失更多的数据。 |
随机种子 | 随机种子(Random Seed),是在随机数生成算法中设定的一个初始值,用于确保随机数生成的可重复性。通过设置随机种子,可以在相同的算法和参数下,生成相同的随机数序列。 |
学习率调整计划 | 学习率调整计划(schedulerType),用于在训练过程中动态调整学习率,以优化模型的收敛速度和性能。根据模型的训练情况和任务需求,选择合适的学习率调整方式。 |
cosine 策略的波数 | cosine 策略的波数(Period of Cosine),波数定义了余弦函数周期的长短。减少波数可以使模型训练过程稳定,增加波数可以避免陷入局部最优。 |
polynomial 策略的末端 LR | polynomial 策略的末端 LR(Polynomial Decay End Learning Rate),指的是在多项式衰减策略中,学习率下降到最后所达到的最小值。这个值通常设置得较低,该值若生效需要比学习率小,保证在模型训练后期实现细致的优化。 |
polynomial 策略的幂数 | polynomial 策略的幂数(Polynomial Decay Power),是指在多项式衰减学习率调整策略中,用于控制学习率下降曲线陡峭程度的指数。幂数越大,可以避免陷入局部最优;幂数越小,可以使模型训练过程稳定。 |
验证步数 | 验证步数(Validation Steps),计算验证集Loss的间隔步数;为0时不开启验证,没有相关指标。 |
早停策略 | 早停策略(Early Stopping),监控精调任务的指标变化情况,指标连续不变则提前终止训练。 |
早停指标 | 早停策略选择ture时,显示此指标。早停指标(Early Stopping Metric),根据该监控指标决定任务是否早停。 |
早停指标变化量 | 早停策略选择ture时,显示此指标。早停指标变化量(Early Stopping Metric Change),当精调任务指标的变化量超过早停指标变化量时才认为发生变化。根据实际损失曲线进行决定。 |
早停指标稳定次数 | 早停策略选择ture时,显示此指标。早停指标稳定次数(Early Stopping Patience),早停指标连续不变化的次数。如果设置的稳定次数较小,早停策略会更敏感,可能在模型尚未充分训练时就停止训练;如果设置的稳定次数较大,早停策略会更宽松,允许模型有更多的训练周期来改善性能。 |
ERNIE-Tiny-128K-0929
2024年9月29日发布的版本,单条数据支持128k tokens。
训练方法 | 简单描述 |
---|---|
全量更新 | 全量更新在训练过程中对大模型的全部参数进行更新 |
LoRA | LoRA在固定预训练大模型本身的参数的基础上,在保留自注意力模块中原始权重矩阵的基础上,对权重矩阵进行低秩分解,训练过程中只更新低秩部分的参数。 |
- 参数配置
超参数 | 简单描述 |
---|---|
迭代轮次 | 迭代轮次(Epoch),控制模型训练过程中遍历整个数据集的次数。建议设置在1-5之间,小数据集可增大Epoch以促进模型收敛。 |
学习率 | 学习率(Learning Rate),控制模型参数更新步长的速度。过高会导致模型难以收敛,过低则会导致模型收敛速度过慢,平台已给出默认推荐值,可根据经验调整。 |
序列长度 | 序列长度(Sequence Length),单条数据的最大长度,包括输入和输出。该长度在模型的训练和推理过程中全部适用,超过该长度的部分将在推理时自动截断,单位为token。如果数据集中的文本普遍较短,建议选择较短的序列长度以提高计算效率。 |
全局批大小 | 全局批大小(GlobalBatchsize),每次训练迭代使用的样本数,为了加快训练效率,多条样本会使用Packing尽可能拼接到一个序列长度内。 |
保存日志间隔 | 保存日志间隔(Logging Interval),设定模型训练过程中记录日志的间隔步数。合理设置可以平衡日志记录的详细程度和存储、处理资源的消耗。 |
预热比例 | 预热比例(Learning Rate Warmup),训练初期学习率预热步数占用总的训练步数的比例。学习率预热可以提高模型稳定性和收敛速度。 |
正则化系数 | 正则化系数(Weight Decay),控制正则化项对模型参数的影响强度。适当增大系数可以增强正则化效果,防止过拟合,但过高的系数可能导致模型欠拟合。 |
LoRA 策略中的秩 | 仅选择LoRA训练方法时设置,LoRA 策略中的秩(LoRA Rank),决定了微调过程中引入的低秩矩阵的复杂度。较小的秩可以减少参数数量,降低过拟合风险,但可能不足以捕捉任务所需的所有特征;较大的秩可能增强模型的表示能力,但会增加计算和存储负担。 |
LoRA所有线性层 | 仅选择LoRA训练方法时设置,LoRA所有线性层(LoRA in Linear),是否将 LoRA 策略应用在所有Linear层。如果资源充足且目标是最大程度地提升模型性能,可以尝试在所有线性层上应用 LoRA,但需注意监控过拟合风险。 |
伪多轮概率 | 伪多轮概率(Pseudo Multi-Round Probability),随机采用数据拼接的数据增强策略的概率。 |
Checkpoint保存个数 | Checkpoint保存个数(Number of Checkpoint),训练过程最终要保存的Checkpoint个数。Checkpoint保存可以在系统故障时从最近的Checkpoint中恢复训练,但保存Checkpoint会增加训练时长。 |
Checkpoint保存间隔数 | Checkpoint保存间隔数(Checkpoint Interval),训练过程中保存Checkpoint的间隔Step数。间隔太短可能导致频繁的Checkpoint操作增加训练时长,间隔太长则可能在故障时丢失更多的数据。 |
随机种子 | 随机种子(Random Seed),是在随机数生成算法中设定的一个初始值,用于确保随机数生成的可重复性。通过设置随机种子,可以在相同的算法和参数下,生成相同的随机数序列。 |
学习率调整计划 | 学习率调整计划(schedulerType),用于在训练过程中动态调整学习率,以优化模型的收敛速度和性能。根据模型的训练情况和任务需求,选择合适的学习率调整方式。 |
cosine 策略的波数 | cosine 策略的波数(Period of Cosine),波数定义了余弦函数周期的长短。减少波数可以使模型训练过程稳定,增加波数可以避免陷入局部最优。 |
polynomial 策略的末端 LR | polynomial 策略的末端 LR(Polynomial Decay End Learning Rate),指的是在多项式衰减策略中,学习率下降到最后所达到的最小值。这个值通常设置得较低,该值若生效需要比学习率小,保证在模型训练后期实现细致的优化。 |
polynomial 策略的幂数 | polynomial 策略的幂数(Polynomial Decay Power),是指在多项式衰减学习率调整策略中,用于控制学习率下降曲线陡峭程度的指数。幂数越大,可以避免陷入局部最优;幂数越小,可以使模型训练过程稳定。 |
验证步数 | 验证步数(Validation Steps),计算验证集Loss的间隔步数;为0时不开启验证,没有相关指标。 |
早停策略 | 早停策略(Early Stopping),监控精调任务的指标变化情况,指标连续不变则提前终止训练。 |
早停指标 | 早停策略选择ture时,显示此指标。早停指标(Early Stopping Metric),根据该监控指标决定任务是否早停。 |
早停指标变化量 | 早停策略选择ture时,显示此指标。早停指标变化量(Early Stopping Metric Change),当精调任务指标的变化量超过早停指标变化量时才认为发生变化。根据实际损失曲线进行决定。 |
早停指标稳定次数 | 早停策略选择ture时,显示此指标。早停指标稳定次数(Early Stopping Patience),早停指标连续不变化的次数。如果设置的稳定次数较小,早停策略会更敏感,可能在模型尚未充分训练时就停止训练;如果设置的稳定次数较大,早停策略会更宽松,允许模型有更多的训练周期来改善性能。 |
Llama
Llama 是Facebook 推出的开源大语言模型。千帆ModelBuilder团队在开源模型基础上做了中文增强。
Meta-Llama-3.2-1B-128K
单条数据支持128k tokens。Meta-Llama-3.2-1B针对多语言文本对话进行了优化,包括代理检索和摘要任务,表现优于许多可用的开源和封闭聊天模型。
训练方法 | 简单描述 |
---|---|
全量更新 | 全量更新在训练过程中对大模型的全部参数进行更新 |
LoRA | LoRA在固定预训练大模型本身的参数的基础上,在保留自注意力模块中原始权重矩阵的基础上,对权重矩阵进行低秩分解,训练过程中只更新低秩部分的参数。 |
- 参数配置
超参数 | 简单描述 |
---|---|
迭代轮次 | 迭代轮次(Epoch),控制模型训练过程中遍历整个数据集的次数。建议设置在1-5之间,小数据集可增大Epoch以促进模型收敛。 |
学习率 | 学习率(Learning Rate),控制模型参数更新步长的速度。过高会导致模型难以收敛,过低则会导致模型收敛速度过慢,平台已给出默认推荐值,可根据经验调整。 |
验证步数 | 验证步数(Validation Steps),计算验证集Loss的间隔步数,为0时不开启验证,没有相关指标。 |
批处理大小 | 批处理大小(BatchSize)表示每次训练迭代中在每个设备上处理的样本数。较大的批处理大小可以加速训练,但可能会导致内存问题。 |
Packing | 数据拼接(Packing),将多条训练样本拼接到一个seqLen长度内。 |
学习率调整计划 | 学习率调整计划(Scheduler Type),用于在训练过程中动态调整学习率,以优化模型的收敛速度和性能。根据模型的训练情况和任务需求,选择合适的学习率调整方式。 |
预热比例 | 预热比例(Learning Rate Warmup),训练初期学习率预热步数占用总的训练步数的比例。学习率预热可以提高模型稳定性和收敛速度。 |
正则化系数 | 正则化系数(Weight Decay),控制正则化项对模型参数的影响强度。适当增大系数可以增强正则化效果,防止过拟合,但过高的系数可能导致模型欠拟合。 |
loraRank | 训练方式选择LoRA时填写,LoRA 策略中的秩(LoRA Rank),决定了微调过程中引入的低秩矩阵的复杂度。较小的秩可以减少参数数量,降低过拟合风险,但可能不足以捕捉任务所需的所有特征;较大的秩可能增强模型的表示能力,但会增加计算和存储负担。 |
loraAlpha | 训练方式选择LoRA时填写,LoRA微调中的缩放系数(LoRA Alpha),定义了LoRA适应的学习率缩放因子。该参数过高,可能会导致模型的微调过度,失去原始模型的能力;改参数过低,可能达不到预期的微调效果。 |
loraDropout | 训练方式选择LoRA时填写,LoRA微调中的Dropout系数(LoRA Dropout),用于防止lora训练中的过拟合。 |
序列长度 | 序列长度(Sequence Length),单条数据的最大长度,包括输入和输出。该长度在模型的训练和推理过程中全部适用,超过该长度的部分将在推理时自动截断,单位为token。如果数据集中的文本普遍较短,建议选择较短的序列长度以提高计算效率。 |
Checkpoint保存个数 | Checkpoint保存个数(Number of Checkpoint),训练过程最终要保存的Checkpoint个数。Checkpoint保存可以在系统故障时从最近的Checkpoint中恢复训练,但保存Checkpoint会增加训练时长。 |
Checkpoint保存间隔数 | Checkpoint保存间隔数(Checkpoint Interval),训练过程中保存Checkpoint的间隔Step数。间隔太短可能导致频繁的Checkpoint操作增加训练时长,间隔太长则可能在故障时丢失更多的数据。 |
Meta-Llama-3.1-8B
单条数据支持8192tokens。Meta-Llama-3.1-8B是在15T+tokens上训练的80亿参数预训练大语言模型,推理效果整体优于同参数量级开源模型。
训练方法 | 简单描述 |
---|---|
全量更新 | 全量更新在训练过程中对大模型的全部参数进行更新 |
LoRA | LoRA在固定预训练大模型本身的参数的基础上,在保留自注意力模块中原始权重矩阵的基础上,对权重矩阵进行低秩分解,训练过程中只更新低秩部分的参数。 |
- 参数配置
超参数 | 简单描述 |
---|---|
迭代轮次 | 迭代轮次(Epoch),控制模型训练过程中遍历整个数据集的次数。建议设置在1-5之间,小数据集可增大Epoch以促进模型收敛。 |
学习率 | 学习率(Learning Rate),控制模型参数更新步长的速度。过高会导致模型难以收敛,过低则会导致模型收敛速度过慢,平台已给出默认推荐值,可根据经验调整。 |
验证步数 | 验证步数(Validation Steps),计算验证集Loss的间隔步数,为0时不开启验证,没有相关指标。 |
批处理大小 | 批处理大小(BatchSize)表示每次训练迭代中在每个设备上处理的样本数。较大的批处理大小可以加速训练,但可能会导致内存问题。 |
Packing | 数据拼接(Packing),将多条训练样本拼接到一个seqLen长度内。 |
学习率调整计划 | 学习率调整计划(Scheduler Type),用于在训练过程中动态调整学习率,以优化模型的收敛速度和性能。根据模型的训练情况和任务需求,选择合适的学习率调整方式。 |
预热比例 | 预热比例(Learning Rate Warmup),训练初期学习率预热步数占用总的训练步数的比例。学习率预热可以提高模型稳定性和收敛速度。 |
正则化系数 | 正则化系数(Weight Decay),控制正则化项对模型参数的影响强度。适当增大系数可以增强正则化效果,防止过拟合,但过高的系数可能导致模型欠拟合。 |
loraRank | 训练方式选择LoRA时填写,LoRA 策略中的秩(LoRA Rank),决定了微调过程中引入的低秩矩阵的复杂度。较小的秩可以减少参数数量,降低过拟合风险,但可能不足以捕捉任务所需的所有特征;较大的秩可能增强模型的表示能力,但会增加计算和存储负担。 |
loraAlpha | 训练方式选择LoRA时填写,LoRA微调中的缩放系数(LoRA Alpha),定义了LoRA适应的学习率缩放因子。该参数过高,可能会导致模型的微调过度,失去原始模型的能力;改参数过低,可能达不到预期的微调效果。 |
loraDropout | 训练方式选择LoRA时填写,LoRA微调中的Dropout系数(LoRA Dropout),用于防止lora训练中的过拟合。 |
序列长度 | 序列长度(Sequence Length),单条数据的最大长度,包括输入和输出。该长度在模型的训练和推理过程中全部适用,超过该长度的部分将在推理时自动截断,单位为token。如果数据集中的文本普遍较短,建议选择较短的序列长度以提高计算效率。 |
Checkpoint保存个数 | Checkpoint保存个数(Number of Checkpoint),训练过程最终要保存的Checkpoint个数。Checkpoint保存可以在系统故障时从最近的Checkpoint中恢复训练,但保存Checkpoint会增加训练时长。 |
Checkpoint保存间隔数 | Checkpoint保存间隔数(Checkpoint Interval),训练过程中保存Checkpoint的间隔Step数。间隔太短可能导致频繁的Checkpoint操作增加训练时长,间隔太长则可能在故障时丢失更多的数据。 |
Meta-Llama-3-8B
单条数据支持4096 tokens。Meta-Llama-3-8B在通用能力、知识推理、阅读理解的行业基准测评上表现优异。
训练方法 | 简单描述 |
---|---|
全量更新 | 全量更新在训练过程中对大模型的全部参数进行更新 |
- 参数配置
超参数 | 简单描述 |
---|---|
迭代轮次 | 迭代轮次(Epoch),控制模型训练过程中遍历整个数据集的次数。建议设置在1-5之间,小数据集可增大Epoch以促进模型收敛。 |
学习率 | 学习率(Learning Rate),控制模型参数更新步长的速度。过高会导致模型难以收敛,过低则会导致模型收敛速度过慢,平台已给出默认推荐值,可根据经验调整。 |
验证步数 | 验证步数(Validation Steps),计算验证集Loss的间隔步数,为0时不开启验证,没有相关指标。 |
批处理大小 | 批处理大小(BatchSize)表示每次训练迭代中在每个设备上处理的样本数。较大的批处理大小可以加速训练,但可能会导致内存问题。 |
Qianfan-Chinese-Llama-2-13b-v2
千帆ModelBuilder团队基于Llama2架构开发的130亿参数预训练大语言模型,在1T+ tokens的高质量自有语料上从零开始训练,支持中英双语。推理效果整体优于同参数量级开源模型。
训练方法 | 简单描述 |
---|---|
全量更新 | 全量更新在训练过程中对大模型的全部参数进行更新 |
LoRA | 在固定预训练大模型本身的参数的基础上,在保留自注意力模块中原始权重矩阵的基础上,对权重矩阵进行低秩分解,训练过程中只更新低秩部分的参数。 |
- 参数配置
超参数 | 简单描述 |
---|---|
迭代轮次 | 迭代轮次(Epoch),控制模型训练过程中遍历整个数据集的次数。建议设置在1-5之间,小数据集可增大Epoch以促进模型收敛。 |
学习率 | 学习率(Learning Rate),控制模型参数更新步长的速度。过高会导致模型难以收敛,过低则会导致模型收敛速度过慢,平台已给出默认推荐值,可根据经验调整。 |
验证步数 | 验证步数(Validation Steps),计算验证集Loss的间隔步数,为0时不开启验证,没有相关指标。 |
批处理大小 | 批处理大小(BatchSize)表示每次训练迭代中在每个设备上处理的样本数。较大的批处理大小可以加速训练,但可能会导致内存问题。 |
Packing | 数据拼接(Packing),将多条训练样本拼接到一个seqLen长度内。 |
学习率调整计划 | 学习率调整计划(Scheduler Type),用于在训练过程中动态调整学习率,以优化模型的收敛速度和性能。根据模型的训练情况和任务需求,选择合适的学习率调整方式。 |
预热比例 | 预热比例(Learning Rate Warmup),训练初期学习率预热步数占用总的训练步数的比例。学习率预热可以提高模型稳定性和收敛速度。 |
正则化系数 | 正则化系数(Weight Decay),控制正则化项对模型参数的影响强度。适当增大系数可以增强正则化效果,防止过拟合,但过高的系数可能导致模型欠拟合。 |
loraRank | 训练方式选择LoRA时填写,LoRA 策略中的秩(LoRA Rank),决定了微调过程中引入的低秩矩阵的复杂度。较小的秩可以减少参数数量,降低过拟合风险,但可能不足以捕捉任务所需的所有特征;较大的秩可能增强模型的表示能力,但会增加计算和存储负担。 |
loraAlpha | 训练方式选择LoRA时填写,LoRA微调中的缩放系数(LoRA Alpha),定义了LoRA适应的学习率缩放因子。该参数过高,可能会导致模型的微调过度,失去原始模型的能力;改参数过低,可能达不到预期的微调效果。 |
loraDropout | 训练方式选择LoRA时填写,LoRA微调中的Dropout系数(LoRA Dropout),用于防止lora训练中的过拟合。 |
序列长度 | 序列长度(Sequence Length),单条数据的最大长度,包括输入和输出。该长度在模型的训练和推理过程中全部适用,超过该长度的部分将在推理时自动截断,单位为token。如果数据集中的文本普遍较短,建议选择较短的序列长度以提高计算效率。 |
Checkpoint保存个数 | Checkpoint保存个数(Number of Checkpoint),训练过程最终要保存的Checkpoint个数。Checkpoint保存可以在系统故障时从最近的Checkpoint中恢复训练,但保存Checkpoint会增加训练时长。 |
Checkpoint保存间隔数 | Checkpoint保存间隔数(Checkpoint Interval),训练过程中保存Checkpoint的间隔Step数。间隔太短可能导致频繁的Checkpoint操作增加训练时长,间隔太长则可能在故障时丢失更多的数据。 |
Qianfan-Chinese-Llama-2-7B
单条数据支持4096 tokens。Qianfan-Chinese-Llama-2-7B,千帆ModelBuilder团队在Llama-2-7b基础上的中文增强版本。
训练方法 | 简单描述 |
---|---|
全量更新 | 全量更新在训练过程中对大模型的全部参数进行更新 |
LoRA | 在固定预训练大模型本身的参数的基础上,在保留自注意力模块中原始权重矩阵的基础上,对权重矩阵进行低秩分解,训练过程中只更新低秩部分的参数。 |
- 参数配置
超参数 | 简单描述 |
---|---|
迭代轮次 | 迭代轮次(Epoch),控制模型训练过程中遍历整个数据集的次数。建议设置在1-5之间,小数据集可增大Epoch以促进模型收敛。 |
学习率 | 学习率(Learning Rate),控制模型参数更新步长的速度。过高会导致模型难以收敛,过低则会导致模型收敛速度过慢,平台已给出默认推荐值,可根据经验调整。 |
批处理大小 | 批处理大小(BatchSize)表示每次训练迭代中在每个设备上处理的样本数。较大的批处理大小可以加速训练,但可能会导致内存问题。 |
Packing | 数据拼接(Packing),将多条训练样本拼接到一个seqLen长度内。 |
学习率调整计划 | 学习率调整计划(Scheduler Type),用于在训练过程中动态调整学习率,以优化模型的收敛速度和性能。根据模型的训练情况和任务需求,选择合适的学习率调整方式。 |
预热比例 | 预热比例(Learning Rate Warmup),训练初期学习率预热步数占用总的训练步数的比例。学习率预热可以提高模型稳定性和收敛速度。 |
正则化系数 | 正则化系数(Weight Decay),控制正则化项对模型参数的影响强度。适当增大系数可以增强正则化效果,防止过拟合,但过高的系数可能导致模型欠拟合。 |
loraRank | 训练方式选择LoRA时填写,LoRA 策略中的秩(LoRA Rank),决定了微调过程中引入的低秩矩阵的复杂度。较小的秩可以减少参数数量,降低过拟合风险,但可能不足以捕捉任务所需的所有特征;较大的秩可能增强模型的表示能力,但会增加计算和存储负担。 |
loraAlpha | 训练方式选择LoRA时填写,LoRA微调中的缩放系数(LoRA Alpha),定义了LoRA适应的学习率缩放因子。该参数过高,可能会导致模型的微调过度,失去原始模型的能力;改参数过低,可能达不到预期的微调效果。 |
loraDropout | 训练方式选择LoRA时填写,LoRA微调中的Dropout系数(LoRA Dropout),用于防止lora训练中的过拟合。 |
序列长度 | 序列长度(Sequence Length),单条数据的最大长度,包括输入和输出。该长度在模型的训练和推理过程中全部适用,超过该长度的部分将在推理时自动截断,单位为token。如果数据集中的文本普遍较短,建议选择较短的序列长度以提高计算效率。 |
Checkpoint保存个数 | Checkpoint保存个数(Number of Checkpoint),训练过程最终要保存的Checkpoint个数。Checkpoint保存可以在系统故障时从最近的Checkpoint中恢复训练,但保存Checkpoint会增加训练时长。 |
验证步数 | 验证步数(Validation Steps),计算验证集Loss的间隔步数,为0时不开启验证,没有相关指标。 |
Checkpoint保存间隔数 | Checkpoint保存间隔数(Checkpoint Interval),训练过程中保存Checkpoint的间隔Step数。间隔太短可能导致频繁的Checkpoint操作增加训练时长,间隔太长则可能在故障时丢失更多的数据。 |
Qianfan-Chinese-Llama-2-13B-v1
Qianfan-Chinese-Llama-2-13b,千帆ModelBuilder团队在Llama-2-13b基础上的中文增强版本。
训练方法 | 简单描述 |
---|---|
全量更新 | 全量更新在训练过程中对大模型的全部参数进行更新 |
LoRA | 在固定预训练大模型本身的参数的基础上,在保留自注意力模块中原始权重矩阵的基础上,对权重矩阵进行低秩分解,训练过程中只更新低秩部分的参数。 |
- 参数配置
超参数 | 简单描述 |
---|---|
迭代轮次 | 迭代轮次(Epoch),控制模型训练过程中遍历整个数据集的次数。建议设置在1-5之间,小数据集可增大Epoch以促进模型收敛。 |
学习率 | 学习率(Learning Rate),控制模型参数更新步长的速度。过高会导致模型难以收敛,过低则会导致模型收敛速度过慢,平台已给出默认推荐值,可根据经验调整。 |
批处理大小 | 批处理大小(BatchSize)表示每次训练迭代中在每个设备上处理的样本数。较大的批处理大小可以加速训练,但可能会导致内存问题。 |
Packing | 数据拼接(Packing),将多条训练样本拼接到一个seqLen长度内。 |
学习率调整计划 | 学习率调整计划(Scheduler Type),用于在训练过程中动态调整学习率,以优化模型的收敛速度和性能。根据模型的训练情况和任务需求,选择合适的学习率调整方式。 |
预热比例 | 预热比例(Learning Rate Warmup),训练初期学习率预热步数占用总的训练步数的比例。学习率预热可以提高模型稳定性和收敛速度。 |
正则化系数 | 正则化系数(Weight Decay),控制正则化项对模型参数的影响强度。适当增大系数可以增强正则化效果,防止过拟合,但过高的系数可能导致模型欠拟合。 |
loraRank | 训练方式选择LoRA时填写,LoRA 策略中的秩(LoRA Rank),决定了微调过程中引入的低秩矩阵的复杂度。较小的秩可以减少参数数量,降低过拟合风险,但可能不足以捕捉任务所需的所有特征;较大的秩可能增强模型的表示能力,但会增加计算和存储负担。 |
loraAlpha | 训练方式选择LoRA时填写,LoRA微调中的缩放系数(LoRA Alpha),定义了LoRA适应的学习率缩放因子。该参数过高,可能会导致模型的微调过度,失去原始模型的能力;改参数过低,可能达不到预期的微调效果。 |
loraDropout | 训练方式选择LoRA时填写,LoRA微调中的Dropout系数(LoRA Dropout),用于防止lora训练中的过拟合。 |
序列长度 | 序列长度(Sequence Length),单条数据的最大长度,包括输入和输出。该长度在模型的训练和推理过程中全部适用,超过该长度的部分将在推理时自动截断,单位为token。如果数据集中的文本普遍较短,建议选择较短的序列长度以提高计算效率。 |
Checkpoint保存个数 | Checkpoint保存个数(Number of Checkpoint),训练过程最终要保存的Checkpoint个数。Checkpoint保存可以在系统故障时从最近的Checkpoint中恢复训练,但保存Checkpoint会增加训练时长。 |
验证步数 | 验证步数(Validation Steps),计算验证集Loss的间隔步数,为0时不开启验证,没有相关指标。 |
Checkpoint保存间隔数 | Checkpoint保存间隔数(Checkpoint Interval),训练过程中保存Checkpoint的间隔Step数。间隔太短可能导致频繁的Checkpoint操作增加训练时长,间隔太长则可能在故障时丢失更多的数据。 |
Qianfan-Chinese-Llama-2-7b-32K
千帆ModelBuilder团队在Qianfan-Chinese-Llama-2-7B基础上的增强版本,支持32K上下文
训练方法 | 简单描述 |
---|---|
全量更新 | 全量更新在训练过程中对大模型的全部参数进行更新 |
LoRA | 在固定预训练大模型本身的参数的基础上,在保留自注意力模块中原始权重矩阵的基础上,对权重矩阵进行低秩分解,训练过程中只更新低秩部分的参数。 |
- 参数配置
超参数 | 简单描述 |
---|---|
迭代轮次 | 迭代轮次(Epoch),控制模型训练过程中遍历整个数据集的次数。建议设置在1-5之间,小数据集可增大Epoch以促进模型收敛。 |
学习率 | 学习率(Learning Rate),控制模型参数更新步长的速度。过高会导致模型难以收敛,过低则会导致模型收敛速度过慢,平台已给出默认推荐值,可根据经验调整。 |
批处理大小 | 批处理大小(BatchSize)表示每次训练迭代中在每个设备上处理的样本数。较大的批处理大小可以加速训练,但可能会导致内存问题。 |
Packing | 数据拼接(Packing),将多条训练样本拼接到一个seqLen长度内。 |
学习率调整计划 | 学习率调整计划(Scheduler Type),用于在训练过程中动态调整学习率,以优化模型的收敛速度和性能。根据模型的训练情况和任务需求,选择合适的学习率调整方式。 |
预热比例 | 预热比例(Learning Rate Warmup),训练初期学习率预热步数占用总的训练步数的比例。学习率预热可以提高模型稳定性和收敛速度。 |
正则化系数 | 正则化系数(Weight Decay),控制正则化项对模型参数的影响强度。适当增大系数可以增强正则化效果,防止过拟合,但过高的系数可能导致模型欠拟合。 |
loraRank | 训练方式选择LoRA时填写,LoRA 策略中的秩(LoRA Rank),决定了微调过程中引入的低秩矩阵的复杂度。较小的秩可以减少参数数量,降低过拟合风险,但可能不足以捕捉任务所需的所有特征;较大的秩可能增强模型的表示能力,但会增加计算和存储负担。 |
loraAlpha | 训练方式选择LoRA时填写,LoRA微调中的缩放系数(LoRA Alpha),定义了LoRA适应的学习率缩放因子。该参数过高,可能会导致模型的微调过度,失去原始模型的能力;改参数过低,可能达不到预期的微调效果。 |
loraDropout | 训练方式选择LoRA时填写,LoRA微调中的Dropout系数(LoRA Dropout),用于防止lora训练中的过拟合。 |
序列长度 | 序列长度(Sequence Length),单条数据的最大长度,包括输入和输出。该长度在模型的训练和推理过程中全部适用,超过该长度的部分将在推理时自动截断,单位为token。如果数据集中的文本普遍较短,建议选择较短的序列长度以提高计算效率。 |
Checkpoint保存个数 | Checkpoint保存个数(Number of Checkpoint),训练过程最终要保存的Checkpoint个数。Checkpoint保存可以在系统故障时从最近的Checkpoint中恢复训练,但保存Checkpoint会增加训练时长。 |
验证步数 | 验证步数(Validation Steps),计算验证集Loss的间隔步数,为0时不开启验证,没有相关指标。 |
Checkpoint保存间隔数 | Checkpoint保存间隔数(Checkpoint Interval),训练过程中保存Checkpoint的间隔Step数。间隔太短可能导致频繁的Checkpoint操作增加训练时长,间隔太长则可能在故障时丢失更多的数据。 |
Qianfan-Chinese-Llama-2-1.3B
千帆ModelBuilder团队基于Llama2架构开发的13亿参数预训练大语言模型,在1T+tokens的高质量自有语料上从零开始训练,支持中英双语
训练方法 | 简单描述 |
---|---|
全量更新 | 全量更新在训练过程中对大模型的全部参数进行更新 |
- 参数配置
超参数 | 简单描述 |
---|---|
迭代轮次 | 迭代轮次(Epoch),控制模型训练过程中遍历整个数据集的次数。建议设置在1-5之间,小数据集可增大Epoch以促进模型收敛。 |
学习率 | 学习率(Learning Rate),控制模型参数更新步长的速度。过高会导致模型难以收敛,过低则会导致模型收敛速度过慢,平台已给出默认推荐值,可根据经验调整。 |
批处理大小 | 批处理大小(BatchSize)表示每次训练迭代中在每个设备上处理的样本数。较大的批处理大小可以加速训练,但可能会导致内存问题。 |
Packing | 数据拼接(Packing),将多条训练样本拼接到一个seqLen长度内。 |
学习率调整计划 | 学习率调整计划(Scheduler Type),用于在训练过程中动态调整学习率,以优化模型的收敛速度和性能。根据模型的训练情况和任务需求,选择合适的学习率调整方式。 |
预热比例 | 预热比例(Learning Rate Warmup),训练初期学习率预热步数占用总的训练步数的比例。学习率预热可以提高模型稳定性和收敛速度。 |
正则化系数 | 正则化系数(Weight Decay),控制正则化项对模型参数的影响强度。适当增大系数可以增强正则化效果,防止过拟合,但过高的系数可能导致模型欠拟合。 |
序列长度 | 序列长度(Sequence Length),单条数据的最大长度,包括输入和输出。该长度在模型的训练和推理过程中全部适用,超过该长度的部分将在推理时自动截断,单位为token。如果数据集中的文本普遍较短,建议选择较短的序列长度以提高计算效率。 |
Checkpoint保存个数 | Checkpoint保存个数(Number of Checkpoint),训练过程最终要保存的Checkpoint个数。Checkpoint保存可以在系统故障时从最近的Checkpoint中恢复训练,但保存Checkpoint会增加训练时长。 |
验证步数 | 验证步数(Validation Steps),计算验证集Loss的间隔步数,为0时不开启验证,没有相关指标。 |
Checkpoint保存间隔数 | Checkpoint保存间隔数(Checkpoint Interval),训练过程中保存Checkpoint的间隔Step数。间隔太短可能导致频繁的Checkpoint操作增加训练时长,间隔太长则可能在故障时丢失更多的数据。 |
·Mixtral-8x7B
由Mistral AI发布的首个高质量稀疏专家混合模型 (MOE),模型由8个70亿参数专家模型组成,在多个基准测试中表现优于Llama-2-70B及GPT3.5,能够处理32K上下文,在代码生成任务中表现尤为优异。
Mixtral-8x7B
单条数据支持32768 tokens。该版本为支持对话的微调版本。
训练方法 | 简单描述 |
---|---|
全量更新 | 全量更新在训练过程中对大模型的全部参数进行更新 |
- 参数配置
超参数 | 简单描述 |
---|---|
迭代轮次 | 迭代轮次(Epoch),控制模型训练过程中遍历整个数据集的次数。建议设置在1-5之间,小数据集可增大Epoch以促进模型收敛。 |
学习率 | 学习率(Learning Rate),控制模型参数更新步长的速度。过高会导致模型难以收敛,过低则会导致模型收敛速度过慢,平台已给出默认推荐值,可根据经验调整。 |
批处理大小 | 批处理大小(BatchSize)表示每次训练迭代中在每个设备上处理的样本数。较大的批处理大小可以加速训练,但可能会导致内存问题。 |
Packing | 数据拼接(Packing),将多条训练样本拼接到一个seqLen长度内。 |
学习率调整计划 | 学习率调整计划(Scheduler Type),用于在训练过程中动态调整学习率,以优化模型的收敛速度和性能。根据模型的训练情况和任务需求,选择合适的学习率调整方式。 |
预热比例 | 预热比例(Learning Rate Warmup),训练初期学习率预热步数占用总的训练步数的比例。学习率预热可以提高模型稳定性和收敛速度。 |
正则化系数 | 正则化系数(Weight Decay),控制正则化项对模型参数的影响强度。适当增大系数可以增强正则化效果,防止过拟合,但过高的系数可能导致模型欠拟合。 |
序列长度 | 序列长度(Sequence Length),单条数据的最大长度,包括输入和输出。该长度在模型的训练和推理过程中全部适用,超过该长度的部分将在推理时自动截断,单位为token。如果数据集中的文本普遍较短,建议选择较短的序列长度以提高计算效率。 |
Checkpoint保存个数 | Checkpoint保存个数(Number of Checkpoint),训练过程最终要保存的Checkpoint个数。Checkpoint保存可以在系统故障时从最近的Checkpoint中恢复训练,但保存Checkpoint会增加训练时长。 |
验证步数 | 验证步数(Validation Steps),计算验证集Loss的间隔步数,为0时不开启验证,没有相关指标。 |
Checkpoint保存间隔数 | Checkpoint保存间隔数(Checkpoint Interval),训练过程中保存Checkpoint的间隔Step数。间隔太短可能导致频繁的Checkpoint操作增加训练时长,间隔太长则可能在故障时丢失更多的数据。 |
·SQLCoder-7B
由Defog研发、基于Mistral-7B微调的语言模型,用于将自然语言问题转换为SQL语句,具备优秀的生成效果。
SQLCoder-7B
单条数据支持4096 tokens。由Defog研发、基于Mistral-7B微调的语言模型,用于将自然语言问题转换为SQL语句,具备优秀的生成效果。使用Apache 2.0、CC-BY-SA-4.0协议。根据CC-BY-SA-4.0协议要求,您需要将修改后的模型权重在CC-BY-SA-4.0license中开源。
训练方法 | 简单描述 |
---|---|
全量更新 | 全量更新在训练过程中对大模型的全部参数进行更新 |
LoRA | 在固定预训练大模型本身的参数的基础上,在保留自注意力模块中原始权重矩阵的基础上,对权重矩阵进行低秩分解,训练过程中只更新低秩部分的参数。 |
- 参数配置
超参数 | 简单描述 |
---|---|
迭代轮次 | 迭代轮次(Epoch),控制模型训练过程中遍历整个数据集的次数。建议设置在1-5之间,小数据集可增大Epoch以促进模型收敛。 |
学习率 | 学习率(Learning Rate),控制模型参数更新步长的速度。过高会导致模型难以收敛,过低则会导致模型收敛速度过慢,平台已给出默认推荐值,可根据经验调整。 |
批处理大小 | 批处理大小(BatchSize)表示每次训练迭代中在每个设备上处理的样本数。较大的批处理大小可以加速训练,但可能会导致内存问题。 |
Packing | 数据拼接(Packing),将多条训练样本拼接到一个seqLen长度内。 |
学习率调整计划 | 学习率调整计划(Scheduler Type),用于在训练过程中动态调整学习率,以优化模型的收敛速度和性能。根据模型的训练情况和任务需求,选择合适的学习率调整方式。 |
预热比例 | 预热比例(Learning Rate Warmup),训练初期学习率预热步数占用总的训练步数的比例。学习率预热可以提高模型稳定性和收敛速度。 |
正则化系数 | 正则化系数(Weight Decay),控制正则化项对模型参数的影响强度。适当增大系数可以增强正则化效果,防止过拟合,但过高的系数可能导致模型欠拟合。 |
loraRank | 训练方式选择LoRA时填写,LoRA 策略中的秩(LoRA Rank),决定了微调过程中引入的低秩矩阵的复杂度。较小的秩可以减少参数数量,降低过拟合风险,但可能不足以捕捉任务所需的所有特征;较大的秩可能增强模型的表示能力,但会增加计算和存储负担。 |
loraAlpha | 训练方式选择LoRA时填写,LoRA微调中的缩放系数(LoRA Alpha),定义了LoRA适应的学习率缩放因子。该参数过高,可能会导致模型的微调过度,失去原始模型的能力;改参数过低,可能达不到预期的微调效果。 |
loraDropout | 训练方式选择LoRA时填写,LoRA微调中的Dropout系数(LoRA Dropout),用于防止lora训练中的过拟合。 |
序列长度 | 序列长度(Sequence Length),单条数据的最大长度,包括输入和输出。该长度在模型的训练和推理过程中全部适用,超过该长度的部分将在推理时自动截断,单位为token。如果数据集中的文本普遍较短,建议选择较短的序列长度以提高计算效率。 |
Checkpoint保存个数 | Checkpoint保存个数(Number of Checkpoint),训练过程最终要保存的Checkpoint个数。Checkpoint保存可以在系统故障时从最近的Checkpoint中恢复训练,但保存Checkpoint会增加训练时长。 |
验证步数 | 验证步数(Validation Steps),计算验证集Loss的间隔步数,为0时不开启验证,没有相关指标。 |
Checkpoint保存间隔数 | Checkpoint保存间隔数(Checkpoint Interval),训练过程中保存Checkpoint的间隔Step数。间隔太短可能导致频繁的Checkpoint操作增加训练时长,间隔太长则可能在故障时丢失更多的数据。 |
ChatGLM
智谱AI与清华KEG实验室发布的中英双语对话模型,具备强大的推理性能、效果、较低的部署门槛及更长的上下文,在MMLU、CEval等数据集上相比初代有大幅的性能提升。
ChatGLM3-6B
单条数据支持4096 tokens。相比前两代,具备更强大的基础模型能力。目前仅支持Prompt+Response数据格式。
训练方法 | 简单描述 |
---|---|
全量更新 | 全量更新在训练过程中对大模型的全部参数进行更新 |
LoRA | 在固定预训练大模型本身的参数的基础上,在保留自注意力模块中原始权重矩阵的基础上,对权重矩阵进行低秩分解,训练过程中只更新低秩部分的参数。 |
- 参数配置
超参数 | 简单描述 |
---|---|
迭代轮次 | 迭代轮次(Epoch),控制模型训练过程中遍历整个数据集的次数。建议设置在1-5之间,小数据集可增大Epoch以促进模型收敛。 |
学习率 | 学习率(Learning Rate),控制模型参数更新步长的速度。过高会导致模型难以收敛,过低则会导致模型收敛速度过慢,平台已给出默认推荐值,可根据经验调整。 |
批处理大小 | 批处理大小(BatchSize)表示每次训练迭代中在每个设备上处理的样本数。较大的批处理大小可以加速训练,但可能会导致内存问题。 |
Packing | 数据拼接(Packing),将多条训练样本拼接到一个seqLen长度内。 |
学习率调整计划 | 学习率调整计划(Scheduler Type),用于在训练过程中动态调整学习率,以优化模型的收敛速度和性能。根据模型的训练情况和任务需求,选择合适的学习率调整方式。 |
预热比例 | 预热比例(Learning Rate Warmup),训练初期学习率预热步数占用总的训练步数的比例。学习率预热可以提高模型稳定性和收敛速度。 |
正则化系数 | 正则化系数(Weight Decay),控制正则化项对模型参数的影响强度。适当增大系数可以增强正则化效果,防止过拟合,但过高的系数可能导致模型欠拟合。 |
loraRank | 训练方式选择LoRA时填写,LoRA 策略中的秩(LoRA Rank),决定了微调过程中引入的低秩矩阵的复杂度。较小的秩可以减少参数数量,降低过拟合风险,但可能不足以捕捉任务所需的所有特征;较大的秩可能增强模型的表示能力,但会增加计算和存储负担。 |
loraAlpha | 训练方式选择LoRA时填写,LoRA微调中的缩放系数(LoRA Alpha),定义了LoRA适应的学习率缩放因子。该参数过高,可能会导致模型的微调过度,失去原始模型的能力;改参数过低,可能达不到预期的微调效果。 |
loraDropout | 训练方式选择LoRA时填写,LoRA微调中的Dropout系数(LoRA Dropout),用于防止lora训练中的过拟合。 |
序列长度 | 序列长度(Sequence Length),单条数据的最大长度,包括输入和输出。该长度在模型的训练和推理过程中全部适用,超过该长度的部分将在推理时自动截断,单位为token。如果数据集中的文本普遍较短,建议选择较短的序列长度以提高计算效率。 |
Checkpoint保存个数 | Checkpoint保存个数(Number of Checkpoint),训练过程最终要保存的Checkpoint个数。Checkpoint保存可以在系统故障时从最近的Checkpoint中恢复训练,但保存Checkpoint会增加训练时长。 |
验证步数 | 验证步数(Validation Steps),计算验证集Loss的间隔步数,为0时不开启验证,没有相关指标。 |
Checkpoint保存间隔数 | Checkpoint保存间隔数(Checkpoint Interval),训练过程中保存Checkpoint的间隔Step数。间隔太短可能导致频繁的Checkpoint操作增加训练时长,间隔太长则可能在故障时丢失更多的数据。 |
ChatGLM2-6B-32K
支持长文本模型调优,具备长文本的生成效果。
训练方法 | 简单描述 |
---|---|
全量更新 | 全量更新在训练过程中对大模型的全部参数进行更新 |
- 参数配置
超参数 | 简单描述 |
---|---|
迭代轮次 | 迭代轮次(Epoch),控制模型训练过程中遍历整个数据集的次数。建议设置在1-5之间,小数据集可增大Epoch以促进模型收敛。 |
学习率 | 学习率(Learning Rate),控制模型参数更新步长的速度。过高会导致模型难以收敛,过低则会导致模型收敛速度过慢,平台已给出默认推荐值,可根据经验调整。 |
批处理大小 | 批处理大小(BatchSize)表示每次训练迭代中在每个设备上处理的样本数。较大的批处理大小可以加速训练,但可能会导致内存问题。 |
Packing | 数据拼接(Packing),将多条训练样本拼接到一个seqLen长度内。 |
学习率调整计划 | 学习率调整计划(Scheduler Type),用于在训练过程中动态调整学习率,以优化模型的收敛速度和性能。根据模型的训练情况和任务需求,选择合适的学习率调整方式。 |
预热比例 | 预热比例(Learning Rate Warmup),训练初期学习率预热步数占用总的训练步数的比例。学习率预热可以提高模型稳定性和收敛速度。 |
正则化系数 | 正则化系数(Weight Decay),控制正则化项对模型参数的影响强度。适当增大系数可以增强正则化效果,防止过拟合,但过高的系数可能导致模型欠拟合。 |
序列长度 | 序列长度(Sequence Length),单条数据的最大长度,包括输入和输出。该长度在模型的训练和推理过程中全部适用,超过该长度的部分将在推理时自动截断,单位为token。如果数据集中的文本普遍较短,建议选择较短的序列长度以提高计算效率。 |
Checkpoint保存个数 | Checkpoint保存个数(Number of Checkpoint),训练过程最终要保存的Checkpoint个数。Checkpoint保存可以在系统故障时从最近的Checkpoint中恢复训练,但保存Checkpoint会增加训练时长。 |
验证步数 | 验证步数(Validation Steps),计算验证集Loss的间隔步数,为0时不开启验证,没有相关指标。 |
Checkpoint保存间隔数 | Checkpoint保存间隔数(Checkpoint Interval),训练过程中保存Checkpoint的间隔Step数。间隔太短可能导致频繁的Checkpoint操作增加训练时长,间隔太长则可能在故障时丢失更多的数据。 |
ChatGLM2-6B
单条数据支持4096 tokens。
训练方法 | 简单描述 |
---|---|
全量更新 | 全量更新在训练过程中对大模型的全部参数进行更新 |
LoRA | 在固定预训练大模型本身的参数的基础上,在保留自注意力模块中原始权重矩阵的基础上,对权重矩阵进行低秩分解,训练过程中只更新低秩部分的参数。 |
- 参数配置
超参数 | 简单描述 |
---|---|
迭代轮次 | 迭代轮次(Epoch),控制模型训练过程中遍历整个数据集的次数。建议设置在1-5之间,小数据集可增大Epoch以促进模型收敛。 |
学习率 | 学习率(Learning Rate),控制模型参数更新步长的速度。过高会导致模型难以收敛,过低则会导致模型收敛速度过慢,平台已给出默认推荐值,可根据经验调整。 |
批处理大小 | 批处理大小(BatchSize)表示每次训练迭代中在每个设备上处理的样本数。较大的批处理大小可以加速训练,但可能会导致内存问题。 |
Packing | 数据拼接(Packing),将多条训练样本拼接到一个seqLen长度内。 |
学习率调整计划 | 学习率调整计划(Scheduler Type),用于在训练过程中动态调整学习率,以优化模型的收敛速度和性能。根据模型的训练情况和任务需求,选择合适的学习率调整方式。 |
预热比例 | 预热比例(Learning Rate Warmup),训练初期学习率预热步数占用总的训练步数的比例。学习率预热可以提高模型稳定性和收敛速度。 |
正则化系数 | 正则化系数(Weight Decay),控制正则化项对模型参数的影响强度。适当增大系数可以增强正则化效果,防止过拟合,但过高的系数可能导致模型欠拟合。 |
loraRank | 训练方式选择LoRA时填写,LoRA 策略中的秩(LoRA Rank),决定了微调过程中引入的低秩矩阵的复杂度。较小的秩可以减少参数数量,降低过拟合风险,但可能不足以捕捉任务所需的所有特征;较大的秩可能增强模型的表示能力,但会增加计算和存储负担。 |
loraAlpha | 训练方式选择LoRA时填写,LoRA微调中的缩放系数(LoRA Alpha),定义了LoRA适应的学习率缩放因子。该参数过高,可能会导致模型的微调过度,失去原始模型的能力;改参数过低,可能达不到预期的微调效果。 |
loraDropout | 训练方式选择LoRA时填写,LoRA微调中的Dropout系数(LoRA Dropout),用于防止lora训练中的过拟合。 |
序列长度 | 序列长度(Sequence Length),单条数据的最大长度,包括输入和输出。该长度在模型的训练和推理过程中全部适用,超过该长度的部分将在推理时自动截断,单位为token。如果数据集中的文本普遍较短,建议选择较短的序列长度以提高计算效率。 |
Checkpoint保存个数 | Checkpoint保存个数(Number of Checkpoint),训练过程最终要保存的Checkpoint个数。Checkpoint保存可以在系统故障时从最近的Checkpoint中恢复训练,但保存Checkpoint会增加训练时长。 |
验证步数 | 验证步数(Validation Steps),计算验证集Loss的间隔步数,为0时不开启验证,没有相关指标。 |
Checkpoint保存间隔数 | Checkpoint保存间隔数(Checkpoint Interval),训练过程中保存Checkpoint的间隔Step数。间隔太短可能导致频繁的Checkpoint操作增加训练时长,间隔太长则可能在故障时丢失更多的数据。 |
·Baichuan2
Baichuan2是百川智能推出的新一代开源大语言模型。
Baichuan2-7B-Chat
单条数据支持4096 tokens。Baichuan2-7B-Chat 是在大约 1.2 万亿 tokens 上训练的 70 亿参数模型。
训练方法 | 简单描述 |
---|---|
全量更新 | 全量更新在训练过程中对大模型的全部参数进行更新 |
LoRA | 在固定预训练大模型本身的参数的基础上,在保留自注意力模块中原始权重矩阵的基础上,对权重矩阵进行低秩分解,训练过程中只更新低秩部分的参数。 |
- 参数配置
超参数 | 简单描述 |
---|---|
迭代轮次 | 迭代轮次(Epoch),控制模型训练过程中遍历整个数据集的次数。建议设置在1-5之间,小数据集可增大Epoch以促进模型收敛。 |
学习率 | 学习率(Learning Rate),控制模型参数更新步长的速度。过高会导致模型难以收敛,过低则会导致模型收敛速度过慢,平台已给出默认推荐值,可根据经验调整。 |
批处理大小 | 批处理大小(BatchSize)表示每次训练迭代中在每个设备上处理的样本数。较大的批处理大小可以加速训练,但可能会导致内存问题。 |
Packing | 数据拼接(Packing),将多条训练样本拼接到一个seqLen长度内。 |
学习率调整计划 | 学习率调整计划(Scheduler Type),用于在训练过程中动态调整学习率,以优化模型的收敛速度和性能。根据模型的训练情况和任务需求,选择合适的学习率调整方式。 |
预热比例 | 预热比例(Learning Rate Warmup),训练初期学习率预热步数占用总的训练步数的比例。学习率预热可以提高模型稳定性和收敛速度。 |
正则化系数 | 正则化系数(Weight Decay),控制正则化项对模型参数的影响强度。适当增大系数可以增强正则化效果,防止过拟合,但过高的系数可能导致模型欠拟合。 |
loraRank | 训练方式选择LoRA时填写,LoRA 策略中的秩(LoRA Rank),决定了微调过程中引入的低秩矩阵的复杂度。较小的秩可以减少参数数量,降低过拟合风险,但可能不足以捕捉任务所需的所有特征;较大的秩可能增强模型的表示能力,但会增加计算和存储负担。 |
loraAlpha | 训练方式选择LoRA时填写,LoRA微调中的缩放系数(LoRA Alpha),定义了LoRA适应的学习率缩放因子。该参数过高,可能会导致模型的微调过度,失去原始模型的能力;改参数过低,可能达不到预期的微调效果。 |
loraDropout | 训练方式选择LoRA时填写,LoRA微调中的Dropout系数(LoRA Dropout),用于防止lora训练中的过拟合。 |
序列长度 | 序列长度(Sequence Length),单条数据的最大长度,包括输入和输出。该长度在模型的训练和推理过程中全部适用,超过该长度的部分将在推理时自动截断,单位为token。如果数据集中的文本普遍较短,建议选择较短的序列长度以提高计算效率。 |
Checkpoint保存个数 | Checkpoint保存个数(Number of Checkpoint),训练过程最终要保存的Checkpoint个数。Checkpoint保存可以在系统故障时从最近的Checkpoint中恢复训练,但保存Checkpoint会增加训练时长。 |
验证步数 | 验证步数(Validation Steps),计算验证集Loss的间隔步数,为0时不开启验证,没有相关指标。 |
Checkpoint保存间隔数 | Checkpoint保存间隔数(Checkpoint Interval),训练过程中保存Checkpoint的间隔Step数。间隔太短可能导致频繁的Checkpoint操作增加训练时长,间隔太长则可能在故障时丢失更多的数据。 |
Baichuan2-13B-Chat
单条数据支持4096 tokens。Baichuan2-13B-Chat采用2.6万亿Tokens的高质量语料训练。
训练方法 | 简单描述 |
---|---|
全量更新 | 全量更新在训练过程中对大模型的全部参数进行更新 |
LoRA | 在固定预训练大模型本身的参数的基础上,在保留自注意力模块中原始权重矩阵的基础上,对权重矩阵进行低秩分解,训练过程中只更新低秩部分的参数。 |
- 参数配置
超参数 | 简单描述 |
---|---|
迭代轮次 | 迭代轮次(Epoch),控制模型训练过程中遍历整个数据集的次数。建议设置在1-5之间,小数据集可增大Epoch以促进模型收敛。 |
学习率 | 学习率(Learning Rate),控制模型参数更新步长的速度。过高会导致模型难以收敛,过低则会导致模型收敛速度过慢,平台已给出默认推荐值,可根据经验调整。 |
批处理大小 | 批处理大小(BatchSize)表示每次训练迭代中在每个设备上处理的样本数。较大的批处理大小可以加速训练,但可能会导致内存问题。 |
Packing | 数据拼接(Packing),将多条训练样本拼接到一个seqLen长度内。 |
学习率调整计划 | 学习率调整计划(Scheduler Type),用于在训练过程中动态调整学习率,以优化模型的收敛速度和性能。根据模型的训练情况和任务需求,选择合适的学习率调整方式。 |
预热比例 | 预热比例(Learning Rate Warmup),训练初期学习率预热步数占用总的训练步数的比例。学习率预热可以提高模型稳定性和收敛速度。 |
正则化系数 | 正则化系数(Weight Decay),控制正则化项对模型参数的影响强度。适当增大系数可以增强正则化效果,防止过拟合,但过高的系数可能导致模型欠拟合。 |
loraRank | 训练方式选择LoRA时填写,LoRA 策略中的秩(LoRA Rank),决定了微调过程中引入的低秩矩阵的复杂度。较小的秩可以减少参数数量,降低过拟合风险,但可能不足以捕捉任务所需的所有特征;较大的秩可能增强模型的表示能力,但会增加计算和存储负担。 |
loraAlpha | 训练方式选择LoRA时填写,LoRA微调中的缩放系数(LoRA Alpha),定义了LoRA适应的学习率缩放因子。该参数过高,可能会导致模型的微调过度,失去原始模型的能力;改参数过低,可能达不到预期的微调效果。 |
loraDropout | 训练方式选择LoRA时填写,LoRA微调中的Dropout系数(LoRA Dropout),用于防止lora训练中的过拟合。 |
序列长度 | 序列长度(Sequence Length),单条数据的最大长度,包括输入和输出。该长度在模型的训练和推理过程中全部适用,超过该长度的部分将在推理时自动截断,单位为token。如果数据集中的文本普遍较短,建议选择较短的序列长度以提高计算效率。 |
Checkpoint保存个数 | Checkpoint保存个数(Number of Checkpoint),训练过程最终要保存的Checkpoint个数。Checkpoint保存可以在系统故障时从最近的Checkpoint中恢复训练,但保存Checkpoint会增加训练时长。 |
验证步数 | 验证步数(Validation Steps),计算验证集Loss的间隔步数,为0时不开启验证,没有相关指标。 |
Checkpoint保存间隔数 | Checkpoint保存间隔数(Checkpoint Interval),训练过程中保存Checkpoint的间隔Step数。间隔太短可能导致频繁的Checkpoint操作增加训练时长,间隔太长则可能在故障时丢失更多的数据。 |
·BLOOMZ-7B
知名的大语言模型,由HuggingFace研发并开源,能够以46种语言和13种编程语言输出文本。
训练方法 | 简单描述 |
---|---|
全量更新 | 全量更新在训练过程中对大模型的全部参数进行更新 |
LoRA | 在固定预训练大模型本身的参数的基础上,在保留自注意力模块中原始权重矩阵的基础上,对权重矩阵进行低秩分解,训练过程中只更新低秩部分的参数。 |
- 参数配置
超参数 | 简单描述 |
---|---|
迭代轮次 | 迭代轮次(Epoch),控制模型训练过程中遍历整个数据集的次数。建议设置在1-5之间,小数据集可增大Epoch以促进模型收敛。 |
学习率 | 学习率(Learning Rate),控制模型参数更新步长的速度。过高会导致模型难以收敛,过低则会导致模型收敛速度过慢,平台已给出默认推荐值,可根据经验调整。 |
批处理大小 | 批处理大小(BatchSize)表示每次训练迭代中在每个设备上处理的样本数。较大的批处理大小可以加速训练,但可能会导致内存问题。 |
Packing | 数据拼接(Packing),将多条训练样本拼接到一个seqLen长度内。 |
学习率调整计划 | 学习率调整计划(Scheduler Type),用于在训练过程中动态调整学习率,以优化模型的收敛速度和性能。根据模型的训练情况和任务需求,选择合适的学习率调整方式。 |
预热比例 | 预热比例(Learning Rate Warmup),训练初期学习率预热步数占用总的训练步数的比例。学习率预热可以提高模型稳定性和收敛速度。 |
正则化系数 | 正则化系数(Weight Decay),控制正则化项对模型参数的影响强度。适当增大系数可以增强正则化效果,防止过拟合,但过高的系数可能导致模型欠拟合。 |
loraRank | 训练方式选择LoRA时填写,LoRA 策略中的秩(LoRA Rank),决定了微调过程中引入的低秩矩阵的复杂度。较小的秩可以减少参数数量,降低过拟合风险,但可能不足以捕捉任务所需的所有特征;较大的秩可能增强模型的表示能力,但会增加计算和存储负担。 |
loraAlpha | 训练方式选择LoRA时填写,LoRA微调中的缩放系数(LoRA Alpha),定义了LoRA适应的学习率缩放因子。该参数过高,可能会导致模型的微调过度,失去原始模型的能力;改参数过低,可能达不到预期的微调效果。 |
loraDropout | 训练方式选择LoRA时填写,LoRA微调中的Dropout系数(LoRA Dropout),用于防止lora训练中的过拟合。 |
序列长度 | 序列长度(Sequence Length),单条数据的最大长度,包括输入和输出。该长度在模型的训练和推理过程中全部适用,超过该长度的部分将在推理时自动截断,单位为token。如果数据集中的文本普遍较短,建议选择较短的序列长度以提高计算效率。 |
Checkpoint保存个数 | Checkpoint保存个数(Number of Checkpoint),训练过程最终要保存的Checkpoint个数。Checkpoint保存可以在系统故障时从最近的Checkpoint中恢复训练,但保存Checkpoint会增加训练时长。 |
验证步数 | 验证步数(Validation Steps),计算验证集Loss的间隔步数,为0时不开启验证,没有相关指标。 |
Checkpoint保存间隔数 | Checkpoint保存间隔数(Checkpoint Interval),训练过程中保存Checkpoint的间隔Step数。间隔太短可能导致频繁的Checkpoint操作增加训练时长,间隔太长则可能在故障时丢失更多的数据。 |
·CodeLlama-7B
由Meta AI研发并开源的一系列文本生成模型,旨在用于一般代码合成和理解。单条数据支持4096 tokens。由Meta AI研发并开源的一系列文本生成模型,旨在用于一般代码合成和理解,模型参数规模为70亿。
训练方法 | 简单描述 |
---|---|
全量更新 | 全量更新在训练过程中对大模型的全部参数进行更新 |
LoRA | 在固定预训练大模型本身的参数的基础上,在保留自注意力模块中原始权重矩阵的基础上,对权重矩阵进行低秩分解,训练过程中只更新低秩部分的参数。 |
- 参数配置
超参数 | 简单描述 |
---|---|
迭代轮次 | 迭代轮次(Epoch),控制模型训练过程中遍历整个数据集的次数。建议设置在1-5之间,小数据集可增大Epoch以促进模型收敛。 |
学习率 | 学习率(Learning Rate),控制模型参数更新步长的速度。过高会导致模型难以收敛,过低则会导致模型收敛速度过慢,平台已给出默认推荐值,可根据经验调整。 |
批处理大小 | 批处理大小(BatchSize)表示每次训练迭代中在每个设备上处理的样本数。较大的批处理大小可以加速训练,但可能会导致内存问题。 |
Packing | 数据拼接(Packing),将多条训练样本拼接到一个seqLen长度内。 |
学习率调整计划 | 学习率调整计划(Scheduler Type),用于在训练过程中动态调整学习率,以优化模型的收敛速度和性能。根据模型的训练情况和任务需求,选择合适的学习率调整方式。 |
预热比例 | 预热比例(Learning Rate Warmup),训练初期学习率预热步数占用总的训练步数的比例。学习率预热可以提高模型稳定性和收敛速度。 |
正则化系数 | 正则化系数(Weight Decay),控制正则化项对模型参数的影响强度。适当增大系数可以增强正则化效果,防止过拟合,但过高的系数可能导致模型欠拟合。 |
loraRank | 训练方式选择LoRA时填写,LoRA 策略中的秩(LoRA Rank),决定了微调过程中引入的低秩矩阵的复杂度。较小的秩可以减少参数数量,降低过拟合风险,但可能不足以捕捉任务所需的所有特征;较大的秩可能增强模型的表示能力,但会增加计算和存储负担。 |
loraAlpha | 训练方式选择LoRA时填写,LoRA微调中的缩放系数(LoRA Alpha),定义了LoRA适应的学习率缩放因子。该参数过高,可能会导致模型的微调过度,失去原始模型的能力;改参数过低,可能达不到预期的微调效果。 |
loraDropout | 训练方式选择LoRA时填写,LoRA微调中的Dropout系数(LoRA Dropout),用于防止lora训练中的过拟合。 |
序列长度 | 序列长度(Sequence Length),单条数据的最大长度,包括输入和输出。该长度在模型的训练和推理过程中全部适用,超过该长度的部分将在推理时自动截断,单位为token。如果数据集中的文本普遍较短,建议选择较短的序列长度以提高计算效率。 |
Checkpoint保存个数 | Checkpoint保存个数(Number of Checkpoint),训练过程最终要保存的Checkpoint个数。Checkpoint保存可以在系统故障时从最近的Checkpoint中恢复训练,但保存Checkpoint会增加训练时长。 |
验证步数 | 验证步数(Validation Steps),计算验证集Loss的间隔步数,为0时不开启验证,没有相关指标。 |
Checkpoint保存间隔数 | Checkpoint保存间隔数(Checkpoint Interval),训练过程中保存Checkpoint的间隔Step数。间隔太短可能导致频繁的Checkpoint操作增加训练时长,间隔太长则可能在故障时丢失更多的数据。 |
数据配置
训练任务的选择数据及相关配置,大模型调优任务需要匹配多轮对话-非排序类的数据集。至少需要100条数据才可发起训练。
- 数据1 x 采样率1 大于100条时,允许提交,即便数据1小于100
- 数据1x 采样率1+数据2 x 采样率2 大于100条时,允许提交,即便数据1、数据2的和小于100
-
数据1 x 采样率1+千帆混合语料大于100条时允许提交
数据集来源可以为本平台已发布的数据集版本、BOS存储中的数据集或者预置数据集,如果平台没有您准备好的训练数据,您也可以选择创建数据集并发布,选择两个及以上的数据集,支持数据配比,数据占比总和等于100%。
您可以通过提高采样率,来提升数据集的占比。 采样率(按照字符数计算占比):对数据集进⾏随机采样,取值范围为[0.01-10]。当数据集过⼤或质量不⾼,可以利⽤⽋采样(采样率⼩于1)来缩减训练数据的⼤⼩;当数据集过⼩或质量较⾼,可以利⽤过采样(采样率⼤于1)来增加训练数据的⼤⼩,数值越⼤训练时对该部分数据的关注度越⾼,但训练时⻓及费⽤越⾼,推荐过采样率范围为[1-5]。
混合训练:支持用户使用自身数据与通用语料数据混合训练,其中包含多行业、多维度的通用语料数据由本平台提供。
注意:开启数据配比后,会增加整体训练tokens数,参与计费。
通用语料数据共四百万条问答对,请您根据自身数据量进行配比,推荐默认选择的数据配比为混合语料:用户数据=1:5
测试集:您可以选择对上面已选择的数据集进行拆分作为测试集,或者指定数据作为测试集。
- 数据拆分比例:比如设置20,则表示选定数据集版本总数的80%作为训练集,20%作为验证集。
- 平台数据集:需要选择多轮对话-非排序类的数据集。最多支持1000条数据用于测试。如果数据集大于1000条,将取前1000条数据做测试集。
若数据集保存在BOS中,请勿在提交任务后修改BOS数据。修改后可能会导致任务失败!
需注意:当选择BOS目录导入数据集时,数据放在jsonl文件夹下。您需要选择jsonl的父目录:
- 奖励模型支持单轮对话、多轮对话有排序数据。
- SFT支持单轮对话,多轮对话需要有标注数据。
- BOS目录导入数据要严格遵守其格式要求,如不符合此格式要求,训练作业无法成功开启。详情参考BOS导入无标注信息格式和BOS导入有标注信息格式。
另外本训练任务支持您选择开启闲时训练,任务提交后,等待平台资源空闲时进行调度。不保证资源的独占,训练过程中可能会被抢占。适合对时效性要求不高的任务。其支持范围和价格可查看闲时训练计费明细
以上所有操作完成后,点击“开始训练”,则发起模型训练的任务。
发布模型
开启“自动发布”按钮后,模型在训练完成后会自动发布;若模型训练失败,则不自动发布模型。
PS:模型在训练过程中被删除、模型名称重复、模型版本重复都不会自动发布模型。
文生图大模型
新建运行
您可以在创建作业完成后,在SFT任务列表,选择指定任务的“新建任务”按钮。
进入模型训练的任务运行配置页,查看基本信息。
训练配置
如您直接创建SFT作业,可以调整大模型参数,选择基本配置。
- 在SFT训练任务中,可以选择开启增量训练开关。
开关打开后,需要选择SFT的基准模型,此模型来源于运行中的SFT任务。所以您开启增量训练任务的前提有已经在运行中的SFT任务。
为保证增量训练效果,开启增量训练后默认选取10%训练基准模型的数据混合进行训练
注意:基础模型继承基准模型(全量更新所得)版本,所以当您选定基准模型后,基础模型及版本不可变更。
- 您也可以选择直接不使用增量训练,这样直接在基础模型上进行SFT。
·Stable_diffusion XL 1.0
业内知名的跨模态大模型,由StabilityAI研发并开源,有着业内领先的图像生成能力。
训练方法 | 简单描述 |
---|---|
LoRA | 在固定预训练大模型本身的参数的基础上,在保留自注意力模块中原始权重矩阵的基础上,对权重矩阵进行低秩分解,训练过程中只更新低秩部分的参数。 |
- 参数配置
超参数 | 简单描述 |
---|---|
迭代轮次 | 迭代轮次(epoch),控制训练过程中的迭代轮数。 |
批处理大小 | 批处理大小(Batchsize)表示在每次训练迭代中使用的样本数。较大的批处理大小可以加速训练,但可能会导致内存问题。 |
学习率 | 学习率(learning_rate)是在梯度下降的过程中更新权重时的超参数,过高会导致模型难以收敛,过低则会导致模型收敛速度过慢,平台已给出默认推荐值,可根据经验调整。 |
·文心一格
百度自主研发的跨模态图像生成大模型,创新知识增强的混合专家建模,是全球首个知识增强的AI作画大模型,在语义控制、图像细节、中文理解等方面优势显著,已作为基础模型应用在文心一格等相关业务上。
训练方法 | 简单描述 |
---|---|
全量更新 | 全量更新在训练过程中对大模型的全部参数进行更新 |
- 参数配置
超参数 | 简单描述 |
---|---|
迭代轮次 | 迭代轮次(Epoch),控制训练过程中的迭代轮数。可以根据数据规模适当调整Epoch大小。 |
批处理大小 | 批处理大小(Batchsize)表示在每次训练迭代中使用的样本数。较大的批处理大小可以加速训练,但可能会导致内存问题。 |
学习率 | 学习率(learning_rate)是在梯度下降的过程中更新权重时的超参数,过高会导致模型难以收敛,过低则会导致模型收敛速度过慢,平台已给出默认推荐值,可根据经验调整。 |
数据配置
训练任务的选择数据及相关配置,支持选择该模型可使用的数据。
文生图大模型调优任务需要选择图片类型的数据集,且数据集个数应为10-2000张图片,若大于2000张,将会随机选择2000张作为训练数据。
数据集来源可以为本平台已发布的数据集版本,也可以为已有数据集的BOS地址(文心一格暂不支持),详细内容可查看数据集部分内容。
数据拆分比例:比如设置20,则表示选定数据集版本总数的80%作为训练集,20%作为验证集。
资源配置
文生图大模型支持将训练加入GPU,当前默认规格如下:
以上所有内容完成后,即可发起模型训练任务。
关于训练费用可查看价格文档。大模型训练模块会根据数据集大小,预估训练时长,其中最小计量粒度为0.01小时,不足0.01小时按0.01小时计算。
发布模型
开启“自动发布”按钮后,模型在训练完成后会自动发布;若模型训练失败,则不自动发布模型。
PS:模型在训练过程中被删除、模型名称重复、模型版本重复都不会自动发布模型。
图理解大模型
您可以通过【模型精调】-【SFT】-【创建训练作业】来从零创建图理解SFT作业。在该创建页面,有不同配置模块,包括基本信息、训练配置、数据配置、资源配置、发布模型等,完成上述各项配置后,即可完成整个训练作业的创建。
在【基本信息】模块,您可以设置作业的名称等信息,并选择训练使用的基础模型和其版本。其他模块的详细配置教程请见下文。
创建方式上,除了从零创建,您也可以在创建作业完成后,在SFT任务列表,点击指定任务的【新建任务】按钮,创建新的SFT任务,这将创建相同模型的不同版本作业。
训练配置
训练配置模块包含增量训练、训练方法、参数配置几项设置。您可以先进行增量训练配置,然后根据您在基本信息模块选用的基础模型及版本,从下方找到对应模型版本的训练方法和参数介绍,然后配置。
增量训练
在SFT训练任务中,可以选择开启增量训练开关。开关打开后,需要选择SFT的基准模型,此模型来源于运行中的SFT任务。所以您开启增量训练任务的前提是有已经在运行中的SFT任务。请注意:基础模型继承基准模型(全量更新所得)版本,所以当您选定基准模型后,基础模型及版本不可变更。为保证增量训练效果,开启增量训练后默认选取10%训练基准模型的数据混合进行训练。
您也可以选择不使用增量训练,直接在基础模型上进行SFT。
训练方法和参数配置
请根据您在基本信息模块选用的基础模型及版本,从下方找到对应模型版本的训练方法和参数介绍,然后配置。
·LLaVA
LLaVA模型是多模态大模型,是Haotian Liu等人基于Vicuna/Llama等大模型使用多模态数据训练得到。
LLaVA-v1.6-13B
LLaVA-v1.6-13B 是基于Vicuna-13B模型训练得到,在多个benchmark数据集上表现优异。该模型仅供研究使用,需要遵循模型许可。
- 训练方法
训练方法 | 简单描述 |
---|---|
全量更新 | 全量更新在训练过程中对大模型的全部参数进行更新 |
LoRA | 在固定预训练大模型本身的参数的基础上,在保留自注意力模块中原始权重矩阵的基础上,对权重矩阵进行低秩分解,训练过程中只更新低秩部分的参数。 |
- 参数配置
超参数 | 简单描述 |
---|---|
迭代轮次 | 迭代轮次(epoch),控制训练过程中的迭代轮数。 |
学习率 | 学习率(learning_rate)是在梯度下降的过程中更新权重时的超参数,过高会导致模型难以收敛,过低则会导致模型收敛速度过慢,平台已给出默认推荐值,可根据经验调整。 |
验证步数 | Validation Step,计算验证集Loss的间隔步数;为0时不开启验证,没有相关指标。 |
批处理大小 | 批处理大小(Batchsize)表示在每次训练迭代中使用的样本数。较大的批处理大小可以加速训练,但可能会导致内存问题。 |
学习率调整计划 | 学习率调整计划(schedulerName),用于调整训练中学习率的变动方式。 |
学习率预热步数占比 | 学习率预热步数占比(warmupRatio),指训练初始阶段,在学习率较低的情况下逐渐增加学习率的比例。 |
权重衰减数值 | 权重衰减数值(weightDecay),是一种正则化技术,用于帮助控制神经网络模型的复杂性以及减少过拟合的风险。 |
loraRank | 训练方式选择LoRA时填写,LoRA策略中rank,数值越大lora参数越多。 |
loraAlpha | 训练方式选择LoRA时填写,LoRA微调中的缩放系数,系数越大lora影响力越大。 |
序列长度 | 序列长度(seqLen),单条样本的最大长度。如果训练数据较短,减少此项可以加快训练速度。 |
Checkpoint保存个数 | 训练过程最终要保存的Checkpoint个数,Checkpoint保存会增加训练时长。 |
Checkpoint保存间隔数 | 训练过程中保存Checkpoint的间隔Step数。 |
·InternVL2
InternVL2.0在文档和图表理解、数理问题解决,以及集成多模态能力等方面表现出较强竞争力。
InternVL2-2B
InternVL2-2B使用8K上下文窗口进行训练,包含InternViT-300M-448px、MLP projector和internlm2-chat-1_8b,参数规模达20亿。 该模型仅供研究使用,需要遵循模型许可。
- 训练方法
训练方法 | 简单描述 |
---|---|
全量更新 | 全量更新在训练过程中对大模型的全部参数进行更新 |
LoRA | 在固定预训练大模型本身的参数的基础上,在保留自注意力模块中原始权重矩阵的基础上,对权重矩阵进行低秩分解,训练过程中只更新低秩部分的参数。 |
- 参数配置
超参数 | 简单描述 |
---|---|
迭代轮次 | 迭代轮次(Epoch),控制训练过程中的迭代轮数。可以根据数据规模适当调整Epoch大小,建议设置在1-5之间,小数据量可以适当增大Epoch,让模型充分收敛。 |
学习率 | 学习率(LearningRate)是在梯度下降的过程中更新权重时的超参数,过高会导致模型难以收敛,过低则会导致模型收敛速度过慢,平台已给出默认推荐值,可根据经验调整。 |
验证步数 | Validation Step,计算验证集Loss的间隔步数;为0时不开启验证,没有相关指标。 |
批处理大小 | 批处理大小(BatchSize)表示在每次训练迭代中使用的样本数。较大的批处理大小可以加速训练,但可能会导致内存问题。 |
Checkpoint保存个数 | 训练过程最终要保存的Checkpoint个数,Checkpoint保存会增加训练时长。 |
Checkpoint保存间隔数 | 训练过程中保存Checkpoint的间隔Step数。 |
学习率调整计划 | 学习率调整计划(schedulerName),用于调整训练中学习率的变动方式。 |
学习率预热步数占比 | 学习率预热步数占比(warmupRatio),指训练初始阶段,在学习率较低的情况下逐渐增加学习率的比例。 |
权重衰减数值 | 权重衰减数值(weightDecay),是一种正则化技术,用于帮助控制神经网络模型的复杂性以及减少过拟合的风险。 |
loraRank | 训练方式选择LoRA时填写,LoRA策略中rank,数值越大lora参数越多。 |
序列长度 | 序列长度(seqLen),单条样本的最大长度。如果训练数据较短,减少此项可以加快训练速度。 |
InternVL2-8B
InternVL2-8B使用8K上下文窗口进行训练,包含InternViT-300M-448px、MLP projector和internlm2-chat-1_8b,参数规模达20亿。 该模型仅供研究使用,需要遵循模型许可。
- 训练方法
训练方法 | 简单描述 |
---|---|
全量更新 | 全量更新在训练过程中对大模型的全部参数进行更新,可以充分利用训练数据,有潜力在新任务上达到更好的性能。 |
LoRA | LoRA在训练过程中只更新低秩部分的参数,需要的计算资源更少,训练过程更快,可以减少过拟合的风险。 |
- 参数配置
超参数 | 简单描述 |
---|---|
迭代轮次 | 迭代轮次(Epoch),控制训练过程中的迭代轮数。可以根据数据规模适当调整Epoch大小,建议设置在1-5之间,小数据量可以适当增大Epoch,让模型充分收敛。 |
学习率 | 学习率(LearningRate)是在梯度下降的过程中更新权重时的超参数,过高会导致模型难以收敛,过低则会导致模型收敛速度过慢,平台已给出默认推荐值,可根据经验调整。 |
验证步数 | Validation Step,计算验证集Loss的间隔步数;为0时不开启验证,没有相关指标。 |
批处理大小 | 批处理大小(BatchSize)表示在每次训练迭代中使用的样本数。较大的批处理大小可以加速训练,但可能会导致内存问题。 |
Checkpoint保存个数 | 训练过程最终要保存的Checkpoint个数,Checkpoint保存会增加训练时长。 |
Checkpoint保存间隔数 | 训练过程中保存Checkpoint的间隔Step数。 |
学习率调整计划 | 学习率调整计划(schedulerName),用于调整训练中学习率的变动方式。 |
学习率预热步数占比 | 学习率预热步数占比(warmupRatio),指训练初始阶段,在学习率较低的情况下逐渐增加学习率的比例。 |
权重衰减数值 | 权重衰减数值(weightDecay),是一种正则化技术,用于帮助控制神经网络模型的复杂性以及减少过拟合的风险。 |
loraRank | 训练方式选择LoRA时填写,LoRA策略中rank,数值越大lora参数越多。 |
序列长度 | 序列长度(seqLen),单条样本的最大长度。如果训练数据较短,减少此项可以加快训练速度。 |
·InternLM-XComposer
InternLM-XComposer是在2.6万亿token的高质量语料上训练得到的,包含7B及20B两种参数规格及基座、对话等版本,满足不同复杂应用场景需求
InternLM-XComposer2.5-7B
InternLM-XComposer2.5-7B在各种文本-图像理解和创作应用中表现出色。
- 训练方法
训练方法 | 简单描述 |
---|---|
全量更新 | 全量更新在训练过程中对大模型的全部参数进行更新 |
LoRA | 在固定预训练大模型本身的参数的基础上,在保留自注意力模块中原始权重矩阵的基础上,对权重矩阵进行低秩分解,训练过程中只更新低秩部分的参数。 |
- 参数配置
超参数 | 简单描述 |
---|---|
迭代轮次 | 迭代轮次(Epoch),控制训练过程中的迭代轮数。可以根据数据规模适当调整Epoch大小,建议设置在1-5之间,小数据量可以适当增大Epoch,让模型充分收敛。 |
学习率 | 学习率(LearningRate)是在梯度下降的过程中更新权重时的超参数,过高会导致模型难以收敛,过低则会导致模型收敛速度过慢,平台已给出默认推荐值,可根据经验调整。 |
验证步数 | Validation Step,计算验证集Loss的间隔步数;为0时不开启验证,没有相关指标。 |
批处理大小 | 批处理大小(BatchSize)表示在每次训练迭代中使用的样本数。较大的批处理大小可以加速训练,但可能会导致内存问题。 |
Checkpoint保存个数 | 训练过程最终要保存的Checkpoint个数,Checkpoint保存会增加训练时长。 |
Checkpoint保存间隔数 | 训练过程中保存Checkpoint的间隔Step数。 |
学习率调整计划 | 学习率调整计划(schedulerName),用于调整训练中学习率的变动方式。 |
学习率预热步数占比 | 学习率预热步数占比(warmupRatio),指训练初始阶段,在学习率较低的情况下逐渐增加学习率的比例。 |
权重衰减数值 | 权重衰减数值(weightDecay),是一种正则化技术,用于帮助控制神经网络模型的复杂性以及减少过拟合的风险。 |
loraRank | 训练方式选择LoRA时填写,LoRA策略中rank,数值越大lora参数越多。 |
序列长度 | 序列长度(seqLen),单条样本的最大长度。如果训练数据较短,减少此项可以加快训练速度。 |
数据配置
训练任务的选择数据及相关配置,支持选择该模型可使用的数据。
图像理解SFT需选择Prompt+Image+Response的数据集。目前一条数据中仅支持单张图片。
数据集来源为本平台已发布的数据集版本,也可以为已有数据集的BOS地址,详细内容可查看数据集部分内容。
数据拆分比例:比如设置20,则表示选定数据集版本总数的80%作为训练集,20%作为验证集。取值范围为[0-20]。默认取值为5,即验证集占比为5%,训练集占比95%。最多支持1000条数据用于测试。如果数据集大于1000条,将取前1000条数据做验证集。验证集参与计费,价格同训练计费的定价。
百度BOS服务开通申请。
发布模型
开启“自动发布”按钮后,模型在训练完成后会自动发布;若模型训练失败,则不自动发布模型。
PS:模型在训练过程中被删除、模型名称重复、模型版本重复都不会自动发布模型。