训练任务事件
更新时间:2024-09-03
概述
任务事件包括了任务在启动/运行阶段,任务以及关联资源的变更情况,可以弥补资源监控在实时性和场景上的欠缺,有助于运维人员日常观察的任务变更以及定位问题。本文介绍如何查询训练任务的事件信息。
操作步骤
- 登录百舸异构计算平台AIHC控制台。
- 在左侧菜单栏选择训练任务,进入任务列表页面。
- 单击任务名称,进入该任务详情页面
- 单击任务事件即可查看事件信息
训练任务事件字段定义:
字段 | 说明 |
---|---|
首次出现时间( FIRST SEEN) | 首次出现时间 |
最后出现时间(LAST SEEN) | 最后出现时间 |
事件类型(TYPE) | 标记任务级别,“Normal”和“Warning” |
资源类型/名称(OBJECT) | 事件所涉及的对象以及对象名称 |
原因(REASON) | 当前发生事件的简短描述,一般为枚举值,主要在程序内部使用 |
消息(MESSAGE) | 当前发生事件的详细描述信息 |
事件源(SOURCE) | 报告此事件的组件;如 Scheduler、Kubelet 等 |
出现次数(COUNT) | 事件发生的次数。 |
任务事件中支持的对象:
如训练任务失败,用户可以通过训练任务事件,查询任务所在的节点是否有故障事件,初步排除/定位节点故障的原因
对象 | 说明 |
---|---|
job | 任务自身事件 |
podgroup | 任务基于volcano调度,关联的podgroup事件 |
pod | 任务创建的pod事件 |
service | pytorchjob/mpijob自动创建的service事件 |
pv/pvc | 如用户关联的存储卷pv/pvc,会展示对应的事件 |
node | 任务所在节点的故障/运维事件。除原生的节点事件外,百舸通过Node Problem Detector/Node Remedier组件,拓展了包含节点的故障信息以及运维信息的事件 |