训练任务事件
更新时间:2025-09-04
概述
任务事件包括了任务在启动/运行阶段,任务以及关联资源的变更情况,可以弥补资源监控在实时性和场景上的欠缺,有助于运维人员日常观察的任务变更以及定位问题。本文介绍如何查询训练任务的事件信息。
操作步骤
- 登录百舸AI计算平台AIHC控制台。
- 在左侧菜单栏选择分布式训练,进入任务列表页面。
- 单击任务名称,进入该任务详情页面
- 单击任务事件即可查看事件信息

训练任务事件字段定义:
| 字段 | 说明 |
|---|---|
| 首次出现时间( FIRST SEEN) | 首次出现时间 |
| 最后出现时间(LAST SEEN) | 最后出现时间 |
| 事件类型(TYPE) | 标记任务级别,“Normal”和“Warning” |
| 资源类型/名称(OBJECT) | 事件所涉及的对象以及对象名称 |
| 原因(REASON) | 当前发生事件的简短描述,一般为枚举值,主要在程序内部使用 |
| 消息(MESSAGE) | 当前发生事件的详细描述信息 |
| 事件源(SOURCE) | 报告此事件的组件;如 Scheduler、Kubelet 等 |
| 出现次数(COUNT) | 事件发生的次数。 |
任务事件中支持的对象:
如训练任务失败,用户可以通过训练任务事件,查询任务所在的节点是否有故障事件,初步排除/定位节点故障的原因
| 对象 | 说明 |
|---|---|
| job | 任务自身事件 |
| podgroup | 任务基于volcano调度,关联的podgroup事件 |
| pod | 任务创建的pod事件 |
| service | pytorchjob/mpijob自动创建的service事件 |
| pv/pvc | 如用户关联的存储卷pv/pvc,会展示对应的事件 |
| node | 任务所在节点的故障/运维事件。除原生的节点事件外,百舸通过Node Problem Detector/Node Remedier组件,拓展了包含节点的故障信息以及运维信息的事件 |
