【FAQ】千帆大模型平台常见问题梳理（基础概念篇）

大模型开发/互助问答

文心大模型
大模型训练
大模型推理

2023.08.2416248看过

Q: 文心一言的主模型ERNIE Bot是什么架构？

A: 通常大模型架构可以分成两类，一类是Encoder-Decoder，另一类是Decoder-Only，文心一言的主模型ERNIE Bot使用的是Decoder-only的架构。

Q: 训练轮次指的是什么？应该如何换算？

A: 训练轮次可以由步长*数据批大小/数据量的形式换算。例如，1w条样本在数据批大小为32的情况下，建议训练轮次至少设置为2。

Q: 学习率怎么理解？

A: Learning rate multiplier，决定目标函数能否收敛到局部最小值以及收敛到最小值的时刻。

Q: 在千帆大模型平台上进行数据集管理，主要可以进行哪些操作？

A: 集中管理数据集，对数据进行导入和删除等操作；进行数据集的版本控制，数据纳管标准化运行。

Q: 如何理解数据批？对什么大模型训练具体有哪些影响？

A: Batch_size，即一次训练所抓取的数据样本数量，Batch_size大小影响训练速度和模型的优化。

Q: 千帆大模型平台强化学习的机制是什么样的？

A: 强化学习的训练流程可以分为奖励模型(Reward Model)训练，以及第二阶段RL的训练（使用PPO算法）, Reward Model部分首先需要人工标注问答对，对同一问题的不同回答进行排序或者直接打分。使用上述有标注问答对，在LM模型上进行finetune。
在RL阶段，使用actor-critic模型使用PPO算法进行训练，将第一步完成的Reward Model作为奖励函数对生成内容进行打分，从而引导模型输出高分回答。

Q: 模型训练或迭代通常有哪几种？

A: 主要有三种，分别是：Pre-trained（预训练）、Finetune（微调）、Post-training（后训练）

Pre-trained（预训练）就是把模型喂了大量的各种语料训好了一个模型，模型已经拥有的基础的背景知识, 相当于模型从0到100。
finetune（微调）就是在Pre-trained的模型后面加一些简单的类似全连接的神经网络，用业务数据在训练一下，学到行业内的知识, 相当于模型从100到110。
Post-training（后训练）就是预训练的二阶段，预训练是从零到1的搞了一个语言模型。Post-training是在预训练后的模型上，再来一波预训练，是语言模型的训练。后面的finetune是基于业务的微调。相当于模型从110到200. 所谓"注入"学习通常用这种方案。

【FAQ】千帆大模型平台常见问题梳理 （基础概念篇）

热点话题

千帆杯·赛事直播回放汇总

千帆杯-Workflow常规赛（上期）开赛！自定义编排组件，拓展应用能力边界

写提示词很烧脑？3个方法让你的AI对话更高效

【RAG优化 / 前沿】0. 综述：盘点当前传统RAG流程中存在的问题及优化方法、研究前沿

【FAQ】千帆大模型平台常见问题梳理（基础概念篇）