训练任务诊断
更新时间:2025-12-18
训练任务诊断是专为大模型训练设计的在线性能诊断功能,提供实时训练任务 SLOW 和 Hang 的自助诊断能力,帮助客户快速定位性能瓶颈,减少故障排查时间。本文将介绍AI诊断的使用说明。
前提条件
- 已创建 CCE 集群,具体操作请参见 创建CCE集群。
- 确保Kubernetes集群处于正常运行状态,且集群1.28及以上版本(CCE支持的版本说明)。
- 在目标CCE集群中已成功安装CCE DeepTracker组件,具体信息请参见CCE DeepTracker说明。
-
在创建训练任务时,请在
metadata.labels字段下添加 K8s 标签:deep-tracker: on,并确保将训练任务部署到 CCE 集群。注意:
deep-tracker: on标签必须在训练任务创建时添加。未设置该标签的训练任务将无法使用训练任务诊断功能。 -
针对训练任务使用的 NCCL 版本需满足以下版本要求,若不满足以下版本要求会导致训练任务诊断失败。
开启训练任务诊断
注意:
- 仅支持对状态为“运行中”的训练任务进行诊断,其他状态暂不支持诊断。
- 当前仅支持诊断 PyTorch 和 Volcano 类型的训练任务。
- 训练任务的
metadata.labels字段需包含标签:deep-tracker: on。- CCE集群需要成功安装CCE DeepTracker组件。
- 训练任务诊断不支持批量操作,每次仅支持对单个训练任务进行诊断。
- 训练诊断功能采集的信息包括系统版本、负载、docker、kubelet等组件运行状态,系统日志中关键错误信息。诊断全程遵循数据安全规范,不涉及任何业务及敏感数据。
1.登录百度智能云容器引擎 CCE 控制台,在左侧导航栏,点击 "集群管理->集群列表",进入集群列表页,点击集群名称,进入集群管理页面。
2.在左侧导航栏巡检与诊断,选择故障诊断。
3.在故障诊断选择训练任务诊断,点击“立即诊断”。
4.在弹出的对话框中,配置信息。
| 配置项 | 配置说明 |
|---|---|
| 命名空间 | 选择需要诊断的训练任务的命名空间。默认是全部命名空间。 |
| 选择训练任务 | 选择需要进行诊断的训练任务。deep-tracker: on 的训练任务。 |
| 诊断类型 | 选择训练任务诊断类型。
|

5.点击“确定”以启动检查流程。
6.检查完成后,系统将生成检查报告,用户可查看检查结果和建议。
查看报告
诊断列表展示了诊断报告信息包括诊断报告ID、诊断状态、诊断类型、训练任务类型、训练任务名称、训练任务节点等,单击诊断报告ID即可查看报告。
