创建训练任务
更新时间:2025-06-20
前提条件
创建任务前,请确保您已成功创建资源池。详情请参见创建资源池。
操作步骤
- 登录百舸异构计算平台AIHC控制台。
- 进入训练任务列表页面,点击创建任务。
基本信息
训练任务的基础信息
参数 | 说明 |
---|---|
任务名称 | 填写任务的名称。支持小写字母、数字以及 - 且开头必须是小写字母,结尾必须是小写字母或数字,长度1-50字符 |
可见范围 | 选择任务的可见范围,支持队列内可见和仅创建人可见。 队列内可见:队列管理员和成员可见任务 仅创建人可见:仅队列管理员及创建⼈可⻅ |
任务创建方式 | 选择 自定义创建 或 基于开源模型训练模版创建 自定义创建:自定义训练镜像以及参数的场景 基于开源模型训练模版创建:平台预置开源模型的训练镜像代码,可直接使用。 |
参数 | 说明 |
---|---|
镜像地址 | 填写训练的镜像,您可以直接输入镜像地址或者点击选择镜像,目前支持CCR企业版镜像和百舸预置镜像。更多信息,请参考容器镜像服务CCR。 |
执行命令 | 指定代码的执行命令 |
添加环境变量 | 添加环境变量,支持配置多个 |
基于开源模型训练模版创建
参数 | 说明 |
---|---|
镜像地址 | AIAK训练加速模版预置默认的训练镜像,不支持修改 |
执行命令 | AIAK训练加速模版提供默认的参数,需要将数据集、CHECKPOINT、TOKENIZER以及Tensorboard的PATH替换成用户自定义路径 |
环境变量 | AIAK训练加速模版提供默认的环境变量,不建议修改 |
执行命令中需要替换的参数如下:
Plain Text
1DATA_PATH=$USER_DATA_PATH
2CHECKPOINT_LOAD_PATH=$USER_CHECKPOINT_LOAD_PATH
3CHECKPOINT_SAVE_PATH=$USER_CHECKPOINT_SAVE_PATH
4TOKENIZER_PATH=$USER_TOKENIZER_PATH
5TENSORBOARD_PATH=$TENSORBOARD_PATH
您如果需要对模型参数做进一步修改,可以在执行命令中直接修改提交。
资源配置
参数 | 说明 |
---|---|
资源池类型 | 选择全托管资源池和自运维资源池 |
资源池/队列 | 选择任务部署的资源池和队列信息 |
优先级 | 选择任务优先级,支持设置为高、中、低 |
实例数 | 设置训练任务实例数 |
训练框架 | 当前支持PyTorch、MPI和TensorFlow训练框架 |
资源配额 | 填写任务的实例数量以及规格,支持设置实例申请的GPU类型/数量、CPU内存。如不申请GPU,则GPU数量可填写为0 |
共享内存 | 共享内存(shared memory)用于Linux中不同进程之间数据交换和共享,以提高应用程序的性能和效率。百舸平台上共享内存默认为10Gi,如业务有额外需求,可以按需修改 |
RDMA | 开启后系统将自动调度任务到支持RDMA的节点上 |
数据集挂载 | 支持选择数据集挂载 |
存储挂载 | 当前支持并行文件存储 PFS、文件存储 CFS以及对象存储BOS,自运维资源池额外支持本地盘 |
最大运行时长 | 您可以设置任务运行的最长时长,在完成配置后,超过该时长的任务将停止运行。默认不限制运行时长。 |
任务退出自动删除 | 配置任务的自动回收策略。开启后,仅针对于成功/失败状态的任务生效,您可以自定义配置保留时长 |
指定节点调度 | 支持指定节点运行任务 |
定时提交 | 您可以选择开启定时提交选项以便在指定时间自动提交训练任务,您只能设置当前时间之后的提交时间,默认为不开启定时提交任务。 |
容错与诊断
参数 | 说明 |
---|---|
自动容错 | 开启训练容错。详见:训练容错 |
监控信息
参数 | 说明 |
---|---|
Tensorboard | 为该任务开启Tensorboard。开启后需要指定日志存储路径(当前仅支持PFS)。该路径需要与代码中的Tensorboard日志路径保持一致,否则Tensorboard无法获取数据。详见:训练效果监控Tensorboard |
告警 | 百舸平台针对于训练任务的状态,提供了告警通知的机制,提供短信/邮件/微信/飞书以及自定义webhook的通知方式。详见:配置任务的消息通知 |
日志持久化 | 开启日志持久化功能会将您的任务日志持久化保存到日志服务(BLS)中,日志存储、读取、写入和索引会产生费用,详情参考价格详情。 |
提交任务
确认参数,然后单击提交,即可完成任务创建。