创建训练任务
更新时间:2025-05-23
描述
创建一个创建任务到集群中运行。可以指定数据源配置、启动命令以及任务运行的每个节点的计算资源配置等信息。
请求结构
Bash
1POST ?action=CreateJob&resourcePoolId=xxxx
2Host:aihc.bj.baidubce.com
3Authorization:authorization string
4ContentType: application/json
5X-API-Version: v2
请求头域
除公共头域外,无其它特殊头域。
请求参数
参数名称 | 类型 | 是否必须 | 参数位置 | 说明 |
---|---|---|---|---|
resourcePoolId | String | 是 | Query参数 | 标识资源池的唯一标识符 |
name | String | 是 | Body参数 | 名称 |
queue | String | 是 | Body参数 | 训练任务所属队列,通用资源池须填入队列名称,托管资源池须填入队列Id |
jobType | String | 否 | Body参数 | 分布式框架,只支持 PyTorchJob,默认值:PyTorchJob |
jobSpec | JobSpec | 是 | Body参数 | 训练任务配置 |
command | String | 是 | Body参数 | 启动命令 |
labels | List<Label> | 否 | Body参数 | 训练任务标签,默认包含: 1. aijob.cce.baidubce.com/create-from-aihcp-api: "true" 2. aijob.cce.baidubce.com/ai-user-id: {accoutId} 3. aijob.cce.baidubce.com/ai-user-name: {userName} |
priority | String | 否 | Body参数 | 调度优先级,支持高(high)、中(normal)、低(low),默认值:normal |
dataSources | List<Datasource> | 否 | Body参数 | 数据源配置,当前支持PFS |
enableBccl | Boolean | 否 | Body参数 | 是否开启BCCL自动注入,默认值为关闭。当前开启条件: 1.实例数大于等于 2 2.每个实例占整机 8 卡 3.任务开启 RDMA 4.卡型号为A800/HPAS |
faultTolerance | Boolean | 否 | Body参数 | 是否开启容错, 默认值为 关闭 |
faultToleranceArgs | String | 否 | Body参数 | 容错配置:"--enable-replace=true --enable-hang-detection=true --hang-detection-log-timeout-minutes=7 --hang-detection-startup-toleration-minutes=15 --hang-detection-stack-timeout-minutes=3 --max-num-of-unconditional-retry=2 --custom-log-patterns=timeout1 --custom-log-patterns=timeout2" |
tensorboardConfig | TensorboardConfig | 否 | Body参数 | tensorboard相关配置 |
alertConfig | AlertConfig | 否 | Body参数 | 告警相关配置 |
返回头域
除公共头域,无其它特殊头域。
返回参数
参数名称 | 类型 | 说明 |
---|---|---|
requestId | String | 请求ID |
jobId | String | 任务id |
jobName | String | 任务名称 |
请求示例
JSON
1{
2 "name": "api-0513-2",
3 "queueId": "default",
4 "jobType": "PyTorchJob",
5 "command": "sleep 1d",
6 "jobSpec": {
7 "replicas": 1,
8 "image": "registry.baidubce.com/aihc-aiak/aiak-megatron:ubuntu20.04-cu11.8-torch1.14.0-py38_v1.2.7.12_release",
9 "resources": [
10 ],
11 "envs": [
12 {
13 "name": "NCCL_DEBUG",
14 "value": "DEBUG"
15 },
16 {
17 "name": "NCCL_IB_DISABLE",
18 "value": "0"
19 }
20 ],
21 "enableRDMA": true
22 },
23 "labels": [
24 ],
25 "datasource": [
26 {
27 "type": "pfs",
28 "name": "pfs-pxE6jz",
29 "mountPath": "/mnt/cluster"
30 }
31 ]
32}
返回示例
JSON
1{
2 "requestId": "679dfe4a-7df0-4030-be01-ae4f87eeb458",
3 "jobId": "job-uVuy2Onhe4FS",
4 "jobName": "api-0513-2"
5}