使用百舸智能助手进行失败任务的故障排查
所有文档
menu

百舸异构计算平台 AIHC

使用百舸智能助手进行失败任务的故障排查

百舸智能助手是百舸异构计算团队提供的基于大模型的全新助手功能。当前百舸智能助手为您提供训练任务失败场景的智能诊断能力,旨在帮助客户分析训练任务失败的可能原因,并给出指导建议。

更多能力正在加速集成中...

失败任务故障排查

基于百舸训练可观测体系的监控指标,结合百舸在大模型领域积累的专家知识经验,通过大语言模型的分析推理能力,进行任务失败问题的根因定位,提供了更智能的产品使用体验。

image.png

您可以在任务列表页面诊对于失败的任务,通过点击 智能诊断,唤起百舸智能助手,快速诊断分析任务失败的可能原因。

使用前提

  • 首次使用百舸智能助手,需要完成服务授权操作,允许百舸助手访问资源池内节点的系统日志以及任务元数据、事件等相关数据

使用限制

  • 仅支持失败任务的诊断
  • 仅支持pytorch框架的任务

操作步骤

以下是在百舸控制台进行训练任务异常诊断的步骤:

  1. 登录百舸异构计算平台AIHC控制台
  2. 进入训练任务列表页面,选择希望诊断的失败任务。
  3. 在任务状态栏下,点击智能诊断后,唤起百舸智能助手 快速发起诊断。输出关键的错误片段、可能的问题原因以及解决方案。

image.png

  1. 诊断完成后,您可以对诊断效果进行评价。若没有解决问题,您也可以直接在诊断页面快速发起工单获取进一步的支持。
上一篇
使用百舸智能助手进行排队任务的诊断排查
下一篇
通用环境变量列表