eclipse 运行js  内容精选
  • 配置训练任务的消息通知 - 百舸异构计算平台AIHC | 百度智能云文档

    单击 训练任务 ,进入训练任务列表页面 单击 创建任务 ,进入创建训练任务的流程 在 高级配置 模块中,针对于任务维度开启 告警 选项,参数如下: 参数 描述 任务状态 目前支持通知的状态: 1.任务进入运行状态 2.任务失败退出 3.任务成功结束 4.任务hang:需要用户首先开启hang检测功能 5.任务发生容错 6.任务所在节点出现故障 通知策略 基于百度云 Prometheus监控服务 的

    查看更多>>

  • 更新日志 - 百舸异构计算平台AIHC | 百度智能云文档

    尽量均衡 DP 间的采样样本长度; Packing 模式下,支持数据集按 packing 后的样本总计算量排序,尽量均衡 DP 间的计算量(在长序列场景下,由于样本长度差异较大,该问题可能更严重); 升级 Megatron 显存优化机制,在长序列等对显存要求极高的场景下,可用于精细的调整显存占用,包括: 支持流水线并行按 PP Stage 动态设置不同的 PP Layer 数目; 支持重计算功能按

    查看更多>>

eclipse 运行js  更多内容