logo

【FAQ】千帆大模型平台常见问题梳理 (基础概念篇)

Q: 文心一言的主模型ERNIE Bot是什么架构?
A: 通常大模型架构可以分成两类,一类是Encoder-Decoder,另一类是Decoder-Only,文心一言的主模型ERNIE Bot使用的是Decoder-only的架构。

Q: 训练轮次指的是什么?应该如何换算?
A: 训练轮次可以由步长*数据批大小/数据量的形式换算。例如,1w条样本在数据批大小为32的情况下,建议训练轮次至少设置为2。

Q: 学习率怎么理解?
A: Learning rate multiplier,决定目标函数能否收敛到局部最小值以及收敛到最小值的时刻。

Q: 在千帆大模型平台上进行数据集管理,主要可以进行哪些操作?
A: 集中管理数据集,对数据进行导入和删除等操作;进行数据集的版本控制,数据纳管标准化运行。

Q: 如何理解数据批?对什么大模型训练具体有哪些影响?
A: Batch_size,即一次训练所抓取的数据样本数量,Batch_size大小影响训练速度和模型的优化。

Q: 千帆大模型平台强化学习的机制是什么样的?
A: 强化学习的训练流程可以分为奖励模型(Reward Model)训练,以及第二阶段RL的训练(使用PPO算法), Reward Model部分首先需要人工标注问答对,对同一问题的不同回答进行排序或者直接打分。使用上述有标注问答对,在LM模型上进行finetune。
在RL阶段,使用actor-critic模型使用PPO算法进行训练,将第一步完成的Reward Model作为奖励函数对生成内容进行打分,从而引导模型输出高分回答。

Q: 模型训练或迭代通常有哪几种?
A: 主要有三种,分别是:Pre-trained(预训练)、Finetune(微调)、Post-training(后训练)
Pre-trained(预训练)就是把模型喂了大量的各种语料训好了一个模型,模型已经拥有的基础的背景知识, 相当于模型从0到100。
finetune(微调)就是在Pre-trained的模型后面加一些简单的类似全连接的神经网络,用业务数据在训练一下,学到行业内的知识, 相当于模型从100到110。
Post-training(后训练)就是预训练的二阶段,预训练是从零到1的搞了一个语言模型。Post-training是在预训练后的模型上,再来一波预训练,是语言模型的训练。后面的finetune是基于业务的微调。相当于模型从110到200. 所谓"注入"学习通常用这种方案。
评论
用户头像