发起训练任务调度诊断
更新时间:2025-01-09
描述
对排队超过5min任务进行调度诊断。关于调度诊断能力,详见:调度诊断
此接口仅用于发起调度诊断,需要再次调用 获取训练任务调度诊断结果接口获取诊断结果
请求结构
POST /api/v1/aifd/schedulediagnosis/job/launcher
Host:aihc.bj.baidubce.com
Authorization:authorization string
ContentType: application/json
请求头域
除公共头域外,无其它特殊头域。
请求参数
参数名称 | 类型 | 是否必须 | 参数位置 | 说明 |
---|---|---|---|---|
resourcePoolId | String | 是 | Body 参数 | 标识资源池的唯一标识符 |
jobId | String | 是 | Body 参数 | 训练任务ID |
返回头域
除公共头域,无其它特殊头域。
返回参数
参数名称 | 类型 | 是否必须 | 说明 |
---|---|---|---|
requestId | String | 是 | 请求ID |
result | ScheduleDiagnosisLauncher | 是 | 成功请求时的任务信息 |
请求示例
{
"resourcePoolId": "cce-xxxxxxxx",
"jobId": "pytorchjob-19d38d07-3e04-49ef-8428-xxxxxxx",
}
返回示例
{
"requestId": "e17cbc2c-3202-46fa-88ad-xxxxxxxxx",
"result": {
"diagnosisId": "9de03782-1b7f-4183-951b-xxxxxxx",
"jobId": "pytorchjob-19d38d07-3e04-49ef-8428-xxxxxxx"
}
}
错误码
错误码 | 错误描述 | HTTP 状态码 | 说明 |
---|---|---|---|
InvalidParameter | Invalid parameter: XXX | 400 Bad Param | 参数校验不合法 |
InternalError | Internal error: XXX | 500 Internal Server Error | 服务内部错误 |
DiagnosisReportNotFound | The diagnosis report is not found, try later please. | 200 OK | 诊断报告未完成,请稍后重试 |
PreCheckError | Check before diagnosis error: XXX | 400 Bad Param | 诊断前检查项错误,具体如下: 1. 调度器组件版本和健康性检查 2. 任务合法性检查 3. 任务状态检查 4. 队列合法性检查 |