训练任务生命周期
更新时间:2024-09-03
本文将详细介绍任务以及实例状态,帮助您更好的理解任务的运行状况
实例状态
状态 | 说明 |
---|---|
排队中 | Pod 已经被创建,但是还没有被度到节点上 |
启动中 | Pod 已经被调度到节点,在镜像拉取、存储挂载、创建容器等过程。 |
运行中 | Pod 进入running状态,执行训练代码 |
失败 | pod 失败退出 |
成功 | pod 成功退出 |
异常 | Pod 状态未知 |
任务状态
状态 | 说明 |
---|---|
排队中 | 任务已创建,等待调度阶段(允许修改优先级),实例未创建或者所有实例状态为 排队中 |
启动中 | Pod调度完成,实例的状态均为启动中 或者包含部分运行中 的状态 |
运行中 | 所有的Pod为运行中 的状态; |
停止中 | 用户操作停止任务,正在停止任务,正在将实例置为 失败 或者 删除实例 |
已停止 | 任务已经停止 ,实例状态为 失败 或者 实例已经被删除 |
失败 | 任务失败退出,所有实例状态为 失败 |
成功 | 任务成功结束,所有实例状态为 成功 |
异常 | 存在>=1 的实例状态为 失败 |
重启中 | 任务容错或者被抢占,且所有实例状态为 排队中 |