DPO、KTO、 PTQ 有什么区别?百度智能云千帆大模型有应用上述模型训练算法吗?

头像Coderabbit · 提问于2024.12.04浏览量:508

对于这些算法的具体区别、各自的应用场景,以及千帆大模型平台是否采用了这些训练算法

全部回答 · 1
最新最热
  • 用户头像
    百度智能云千帆大模型2024.12.05 16:53
    • KTO、SimPO、RLHF训练方法中选择训练数据后,增加数据采样比率的选择,便于灵活配置训练数据。
    • ERNIE系列模型中,Checkpoint保存方式中增加按Epoch保存。实现每个Epoch训练结束后,自动保存Checkpoint。API同步增加checkpointSaveStrategy参数且兼容旧参数。
    • 新增多种预置评测维度,更好地辅助模型开发效果验证。自动规则新增语义相似度、格式遵从性等预置指标,自动裁判员新增事实性错误、情感倾向性、语义连贯性等预置指标。
    • SFT模型精调支持使用高质量推理结果集(例如,旗舰大模型的优质推理结果可用于轻量大模型的训练),丰富精调数据来源,有助于调优产出兼顾成本、效率与效果的轻量大模型。
    • 新增推理结果集数据洞察,支持对模型推理结果进行深入的可视化探索与样本处理,转化为更高质量的训练集,打造数据飞轮与模型蒸馏场景的模型迭代闭环。

热门问题