创建训练任务
更新时间:2025-09-10
描述
创建一个创建任务到集群中运行。可以指定数据源配置、启动命令以及任务运行的每个节点的计算资源配置等信息。
请求结构
Bash
1POST ?action=CreateJob&resourcePoolId=xxxx
2Host:aihc.bj.baidubce.com
3Authorization:authorization string
4ContentType: application/json
5X-API-Version: v2
请求头域
除公共头域外,无其它特殊头域。
请求参数
参数名称 | 类型 | 是否必须 | 参数位置 | 说明 |
---|---|---|---|---|
resourcePoolId | String | 是 | Query参数 | 标识资源池的唯一标识符 |
queueID | String | 是 | Query参数 | 训练任务所属队列,通用资源池须填入队列名称,托管资源池须填入队列Id |
name | String | 是 | Body参数 | 名称 |
jobType | String | 否 | Body参数 | 分布式框架,只支持 PyTorchJob,默认值:PyTorchJob |
jobSpec | JobSpec | 是 | Body参数 | 训练任务配置 |
command | String | 是 | Body参数 | 启动命令 |
labels | List<Label> | 否 | Body参数 | 训练任务标签,默认包含: 1. aijob.cce.baidubce.com/create-from-aihcp-api: "true" 2. aijob.cce.baidubce.com/ai-user-id: {accoutId} 3. aijob.cce.baidubce.com/ai-user-name: {userName} |
priority | String | 否 | Body参数 | 调度优先级,支持高(high)、中(normal)、低(low),默认值:normal |
dataSources | List<Datasource> | 否 | Body参数 | 数据源配置,当前支持PFS |
enableBccl | Boolean | 否 | Body参数 | 是否开启BCCL自动注入,默认值为关闭。当前开启条件: 1.实例数大于等于 2 2.每个实例占整机 8 卡 3.任务开启 RDMA 4.卡型号为A800/HPAS |
faultTolerance | Boolean | 否 | Body参数 | 是否开启容错, 默认值为 关闭 |
faultToleranceArgs | String | 否 | Body参数 | 容错配置:"--enable-replace=true --enable-hang-detection=true --hang-detection-log-timeout-minutes=7 --hang-detection-startup-toleration-minutes=15 --hang-detection-stack-timeout-minutes=3 --max-num-of-unconditional-retry=2 --custom-log-patterns=timeout1 --custom-log-patterns=timeout2" |
tensorboardConfig | TensorboardConfig | 否 | Body参数 | tensorboard相关配置 |
alertConfig | AlertConfig | 否 | Body参数 | 告警相关配置 |
返回头域
除公共头域,无其它特殊头域。
返回参数
参数名称 | 类型 | 说明 |
---|---|---|
requestId | String | 请求ID |
jobId | String | 任务id |
jobName | String | 任务名称 |
请求示例
JSON
1{
2 "name": "api-0513-2",
3 "jobType": "PyTorchJob",
4 "command": "sleep 1d",
5 "jobSpec": {
6 "replicas": 1,
7 "image": "registry.baidubce.com/aihc-aiak/aiak-megatron:ubuntu20.04-cu11.8-torch1.14.0-py38_v1.2.7.12_release",
8 "resources": [
9 ],
10 "envs": [
11 {
12 "name": "NCCL_DEBUG",
13 "value": "DEBUG"
14 },
15 {
16 "name": "NCCL_IB_DISABLE",
17 "value": "0"
18 }
19 ],
20 "enableRDMA": true
21 },
22 "labels": [
23 ],
24 "datasource": [
25 {
26 "type": "pfs",
27 "name": "pfs-pxE6jz",
28 "mountPath": "/mnt/cluster"
29 }
30 ]
31}
返回示例
JSON
1{
2 "requestId": "679dfe4a-7df0-4030-be01-ae4f87eeb458",
3 "jobId": "job-uVuy2Onhe4FS",
4 "jobName": "api-0513-2"
5}