使用百舸智能助手进行排队任务的诊断排查
更新时间:2024-12-13
排队中任务智能诊断
百舸智能助手是百舸异构计算团队提供的基于大模型的全新助手功能。当前百舸智能助手为您提供训练任务排队场景的智能诊断能力,旨在帮助客户分析训练任务正在排队等待的可能原因,并给出指导建议。
基于百舸训练可观测体系的监控指标,结合百舸在大模型领域积累的专家知识经验,通过大语言模型的分析推理能力,进行任务排队原因的根因定位,提供了更智能的产品使用体验。
您可以在任务列表页面诊对于状态为排队中的任务,通过点击 智能诊断,唤起百舸智能助手,快速诊断分析任务排队的可能原因。
使用前提
- 首次使用百舸智能助手,需要完成服务授权操作,允许百舸助手访问资源池内节点的系统日志以及任务元数据、事件等相关数据
使用限制
- 调度器版本在1.7.27以上
- 当前任务排队超过10min时才可以点击智能诊断按钮
- 当前任务如果在FIFO队列中,只有队首任务才可以点击智能诊断按钮
操作步骤
以下是在百舸控制台进行训练任务异常诊断的步骤:
- 登录百舸异构计算平台AIHC控制台。
- 在左侧菜单栏选择“分布式训练”,进入任务列表页面,当任务处于“排队中”状态超过10min后,可以点击智能诊断。
- 智能诊断结果会在屏幕右侧浮窗展示,包含任务基本信息、队列额度诊断、节点可用诊断、资源余量诊断共4大类信息。每一项一级诊断项下会包含子二级诊断项供用户参考。
- 有异常的诊断项,用户客户查看详细诊断结果,包含:推荐操作、帮助文档、详细原因。
- 用户可以根据推荐操作和帮助文档进行操作,也可以展开详细原因近一步查看。
详细诊断项列表
一级分类 | 二级子分类 | 详细说明 | 针对场景 |
---|---|---|---|
队列额度诊断 | 资源池队列配额诊断 | 针对当前等待原因,提供了提高队列设置配额、降低任务申请配额等推荐操作和详细方法,供客户选择。 | 队列配额管理等问题 |
资源池队列其他诊断 | 针对当前等待原因,提供了选择正确队列配置等推荐操作和详细方法,供客户选择。 | 父队列非法提交、错误队列提交等问题 | |
节点可用诊断 | 节点可用性诊断 | 针对当前等待原因,提供了故障自愈功能等推荐操作和详细方法,供客户选择。 | 节点硬件故障、节点封锁&管理、任务亲和性&反亲和性调度、节点NodeSelector等问题 |
节点污点容忍诊断 | 针对当前等待原因,提供了节点污点管理等推荐操作和详细方法,供客户选择。 | 节点物理队列、节点系统打污点、节点用户打污点等问题 | |
资源余量诊断 | 存储资源挂载诊断 | 针对当前等待原因,提供了检查挂载点、检查挂载配置信息等推荐操作和详细方法,供客户选择。 | PV/PVC挂载点、不存在配置等问题 |
EHC、RDMA网卡诊断 | 针对当前等待原因,提供了检查RDMA资源配置、满足TOR亲和性调度策略、处理前序任务等推荐操作和详细方法,供客户选择。 | 非法RDMA申请、无资源申请、跨EHC调度、TOR策略等问题 | |
GPU资源诊断 | 针对当前等待原因,提供了整理集群资源碎片、处理前序任务和调整任务优先级等推荐操作和详细方法,供客户选择。 | 集群资源碎片、集群资源不足、资源描述符混用等问题 | |
单节点Pod数上限诊断 | 针对当前等待原因,提供了删除冗余Pod等推荐操作和详细方法,供客户选择。 | 可用Pod余量不足 | |
其他资源诊断 | 针对当前等待原因,提供了处理前序任务、调整任务优先级等推荐操作和详细方法,供客户选择。 | 子网ip不足、CPU核数、内存大小、存储空间等问题 |