训练任务事件
所有文档
menu

百舸异构计算平台 AIHC

训练任务事件

概述

任务事件包括了任务在启动/运行阶段,任务以及关联资源的变更情况,可以弥补资源监控在实时性和场景上的欠缺,有助于运维人员日常观察的任务变更以及定位问题。本文介绍如何查询训练任务的事件信息。

操作步骤

  1. 登录百舸异构计算平台AIHC控制台
  2. 在左侧菜单栏选择分布式训练,进入任务列表页面。
  3. 单击任务名称,进入该任务详情页面
  4. 单击任务事件即可查看事件信息

image.png

训练任务事件字段定义:

字段 说明
首次出现时间( FIRST SEEN) 首次出现时间
最后出现时间(LAST SEEN) 最后出现时间
事件类型(TYPE) 标记任务级别,“Normal”和“Warning”
资源类型/名称(OBJECT) 事件所涉及的对象以及对象名称
原因(REASON) 当前发生事件的简短描述,一般为枚举值,主要在程序内部使用
消息(MESSAGE) 当前发生事件的详细描述信息
事件源(SOURCE) 报告此事件的组件;如 Scheduler、Kubelet 等
出现次数(COUNT) 事件发生的次数。

任务事件中支持的对象:

如训练任务失败,用户可以通过训练任务事件,查询任务所在的节点是否有故障事件,初步排除/定位节点故障的原因

对象 说明
job 任务自身事件
podgroup 任务基于volcano调度,关联的podgroup事件
pod 任务创建的pod事件
service pytorchjob/mpijob自动创建的service事件
pv/pvc 如用户关联的存储卷pv/pvc,会展示对应的事件
node 任务所在节点的故障/运维事件。除原生的节点事件外,百舸通过Node Problem Detector/Node Remedier组件,拓展了包含节点的故障信息以及运维信息的事件
上一篇
训练任务日志
下一篇
训练任务资源监控