智能诊断
更新时间:2025-07-30
功能简介
本功能面向自行训练大模型的用户,提供基于大模型训练日志的智能诊断能力。以训练任务为颗粒度,用户可查看该任务下经由智能诊断所产出的所有问题列表,以及各个问题的类型定位、建议解决方案。
准备事项
- 智能诊断需基于训练日志进行,因此需要收集日志并传输到日志集中。具体操作请参考日志集、收集器和传输任务。
- 本功能当前支持的主要为PyTorchJob。在大模型训练日志中,您需将训练任务job id和worker id写入到pod_name字段中。参考下图示例,pod_name中包含了job id信息(llama-rdma)和worker id信息(worker-0)。
- 在传输任务中,对于源端容器采集元数据,需勾选pod_name。
- 在日志集列表中找到该日志集,操作列点击”编辑“,之后选择“高级配置 > 日志内容 > 大模型训练日志“并保存。
创建智能诊断
- 在菜单中选择“日志服务 > 日志应用 > 智能诊断”。
- 在“训练任务”中点击“创建智能诊断”按钮,打开弹窗。
-
填写需要诊断的训练任务ID、该训练任务相应的日志集、需要诊断的日志时间范围。注意:
- 训练任务ID可使用日志中的Job ID,即训练任务的唯一标识。
- 如果没有查询到日志集,请根据上述“准备事项”,确认是否已完成“日志内容”的配置。
- 如果该训练任务当前仍在进行,可选择最近1小时或2小时的日志进行诊断;如果训练任务已停止,可在停止大致时间点附近选择数小时的日志进行诊断。
- 点击“确定”,创建训练任务智能诊断记录。
查看智能诊断结果
- 创建智能诊断后,很快即可在诊断记录列表中查看到本次诊断的状态以及诊断出的问题总数量等信息。点击该行的”查看详情“,可查看到本次诊断出的各个问题(如有)详情,包括故障类型、风险等级、故障的工作节点(worker)、建议解决方案。
- 根据建议解决方案处理后,可把该问题标记为已解决的状态。
其他操作
- 如需查看过往诊断结果,可在训练任务诊断列表中,通过诊断时间范围、训练任务ID进行查找。
- 如果不再需要保存某条诊断记录,可点击该行的“删除”。删除后本次诊断信息不可再次查看,但相关日志信息不会被清除。