创建训练任务
更新时间:2024-12-02
前提条件
创建任务前,请确保您已成功创建资源池。详情请参见创建资源池。
操作步骤
- 登录百舸异构计算平台AIHC控制台。
- 进入训练任务列表页面,点击创建任务。
基础信息
训练任务的基础信息
参数 | 说明 |
---|---|
任务名称 | 填写任务的名称。支持小写字母、数字以及 - 且开头必须是小写字母,结尾必须是小写字母或数字,长度1-50字符 |
资源池 | 选择任务部署的百舸资源池,支持通用资源池和托管资源池 |
队列 | 选择任务需要部署在资源池关联的队列 |
优先级 | 选择任务优先级,支持设置为高、中、低 |
训练框架 | 当前支持PyTorch和MPI训练框架 |
日志持久化 | 开启日志持久化功能会将您的任务日志持久化保存到日志服务(BLS)中,日志存储、读取、写入和索引会产生费用,详情参考价格详情。 |
任务创建方式 | 选择 自定义创建 或 基于AIAK加速模版创建 自定义创建:自定义训练镜像以及参数的场景 基于AIAK加速模版创建:针对于在训练中直接使用AIAK-Training加速镜像的场景,如选择此选项,额外填写 训练模式、训练方法以及AIAK训练模版的参数 |
训练模式(非必填) | 支持 Post-Pretrain 和 SFT 两种模式如选择 基于AIAK加速模版创建,需要填写此字段 |
训练方法(非必填) | 支持 全量更新 和 LoRA 两种方式
全量更新:在训练过程中对大模型的全部参数进行更新 LoRA:LoRA在固定预训练大模型本身的参数的基础上,在保留自注意力模块中原始权重矩阵的基础上,对权重矩阵进行低秩分解,训练过程中只更新低秩部分的参数 如选择 基于AIAK加速模版创建,需要填写此字段 |
AIAK训练模版(非必填) | 选择训练模版,提供主流的开源大模型加速模版,支持常见的llama2、qwen、baichuan2等公开模型如选择 基于AIAK加速模版创建,需要填写此字段 |
参数 | 说明 |
---|---|
镜像地址 | 填写训练的镜像,您可以直接输入镜像地址或者点击选择镜像,目前支持CCR企业版镜像和百舸预置镜像。更多信息,请参考容器镜像服务CCR。 |
执行命令 | 指定代码的执行命令 |
添加环境变量 | 添加环境变量,支持配置多个 |
基于AIAK加速模版创建
参数 | 说明 |
---|---|
镜像地址 | AIAK训练加速模版预置默认的训练镜像,不支持修改 |
执行命令 | AIAK训练加速模版提供默认的参数,需要将数据集、CHECKPOINT、TOKENIZER以及Tensorboard的PATH替换成用户自定义路径 |
环境变量 | AIAK训练加速模版提供默认的环境变量,不建议修改 |
执行命令中需要替换的参数如下:
DATA_PATH=$USER_DATA_PATH
CHECKPOINT_LOAD_PATH=$USER_CHECKPOINT_LOAD_PATH
CHECKPOINT_SAVE_PATH=$USER_CHECKPOINT_SAVE_PATH
TOKENIZER_PATH=$USER_TOKENIZER_PATH
TENSORBOARD_PATH=$TENSORBOARD_PATH
您如果需要对模型参数做进一步修改,可以在执行命令中直接修改提交。
资源配置
参数 | 说明 |
---|---|
实例数 | 设置训练任务实例数 |
加速芯片申请 | 申请加速芯片 |
加速芯片类型 | 选择加速芯片类型,选择后自动显示当前空闲加速芯片数 |
每实例加速芯片数 | 您可以根据当前空闲芯片数来设置每实例芯片数,当前任务使用加速芯片数=实例数* 每实例加速芯片数 |
CPU/内存 | 业务申请的CPU/内存数,默认为不限制,可以使用节点上剩余的空闲资源 |
共享内存 | 共享内存(shared memory)用于Linux中不同进程之间数据交换和共享,以提高应用程序的性能和效率。百舸平台上共享内存默认为10Gi,如业务有额外需求,可以按需修改 |
RDMA | 开启后系统将自动调度任务到支持RDMA的节点上 |
设置数据源
参数 | 说明 |
---|---|
存储类型 | 可选择“本地盘”或“PFS” |
关联文件系统 | 默认关联PFS实例或使用指定本地盘路径 |
挂载路径 | 指定PFS挂载路径或者本地盘挂载路径 |
容错&诊断
参数 | 说明 |
---|---|
任务hang检测 | 用户自定义hang的阈值,所有Worker实例的日志在指定的时间内没有更新,则初步断定任务处于hang状态 1. 当检测到训练任务hang时,会在任务事件中记录 2.训练镜像中集成了百度云集合通信库BCCL,在任务hang时,同步在日志中记录集合通信状态信息,为异常诊断提供数据支持 |
容错 | 开启训练容错。详见:训练容错 |
高级配置
参数 | 说明 |
---|---|
Tensorboard | 为该任务开启Tensorboard。开启后需要指定日志读取路径。该路径需要与代码中的Tensorboard日志路径保持一致,否则Tensorboard无法获取数据。详见:训练效果监控Tensorboard |
任务退出后自动删除 | 配置任务的自动回收策略。开启后,仅针对于成功/失败状态的任务生效,您可以自定义配置保留时长 |
告警 | 百舸平台针对于训练任务的状态,提供了告警通知的机制,提供短信/邮件/微信/飞书以及自定义webhook的通知方式。详见:配置任务的消息通知 |
提交任务
确认参数,然后单击提交,即可完成任务创建。