发起训练任务调度诊断
更新时间:2025-05-23
描述
对排队超过5min任务进行调度诊断。关于调度诊断能力,详见:调度诊断
此接口仅用于发起调度诊断,需要再次调用 获取训练任务调度诊断结果接口获取诊断结果
请求结构
Bash
1POST /api/v1/aifd/schedulediagnosis/job/launcher
2Host:aihc.bj.baidubce.com
3Authorization:authorization string
4ContentType: application/json
请求头域
除公共头域外,无其它特殊头域。
请求参数
参数名称 | 类型 | 是否必须 | 参数位置 | 说明 |
---|---|---|---|---|
resourcePoolId | String | 是 | Body 参数 | 标识资源池的唯一标识符 |
jobId | String | 是 | Body 参数 | 训练任务ID |
返回头域
除公共头域,无其它特殊头域。
返回参数
参数名称 | 类型 | 是否必须 | 说明 |
---|---|---|---|
requestId | String | 是 | 请求ID |
result | ScheduleDiagnosisLauncher | 是 | 成功请求时的任务信息 |
请求示例
JSON
1{
2 "resourcePoolId": "cce-xxxxxxxx",
3 "jobId": "pytorchjob-19d38d07-3e04-49ef-8428-xxxxxxx",
4}
返回示例
JSON
1{
2 "requestId": "e17cbc2c-3202-46fa-88ad-xxxxxxxxx",
3 "result": {
4 "diagnosisId": "9de03782-1b7f-4183-951b-xxxxxxx",
5 "jobId": "pytorchjob-19d38d07-3e04-49ef-8428-xxxxxxx"
6 }
7}
错误码
错误码 | 错误描述 | HTTP 状态码 | 说明 |
---|---|---|---|
InvalidParameter | Invalid parameter: XXX | 400 Bad Param | 参数校验不合法 |
InternalError | Internal error: XXX | 500 Internal Server Error | 服务内部错误 |
DiagnosisReportNotFound | The diagnosis report is not found, try later please. | 200 OK | 诊断报告未完成,请稍后重试 |
PreCheckError | Check before diagnosis error: XXX | 400 Bad Param | 诊断前检查项错误,具体如下: 1. 调度器组件版本和健康性检查 2. 任务合法性检查 3. 任务状态检查 4. 队列合法性检查 |