通用环境变量列表
更新时间:2025-09-16
提交分布式训练任务时,百舸平台会自动注入多个通用环境变量,便于您在代码中直接使用。 本文将为您介绍百舸平台默认提供的环境变量列表信息。
公共环境变量
高性能网络环境变量
高性能网络环境变量,详见平台预置NCCL环境变量
任务通用环境变量
环境变量名 | 描述 |
---|---|
AIHC_JOB_NAME | 任务的名称 |
AIHC_TENSORBOARD_LOG_PATH | Tensorboard日志路径(仅开启了Tensorboard的任务会默认注入) |
PyTorch环境变量
在PyTorch分布式训练框架中,Master和Worker扮演不同的角色并需要相互建立连接以进行通信。百舸平台为PyTorch训练任务默认注入通用环境变量,用于关键信息的同步。
环境变量名 | 说明 |
---|---|
MASTER_ADDR | Master节点地址,默认为 {任务名称}-master-0 |
MASTER_PORT | 所有worker进行通信协商的端口号,默认23456 |
RANK | 节点的Index。例如,若提交一个包含1个Master和2个Worker的作业,则Master上设置的RANK为0,Worker-0设置的RANK为1, Worker-1设置的RANK为2。 |
WORLD_SIZE | 训练的节点总数,例如,若提交一个包含1个Master和2个Worker的作业,则WORLD_SIZE设置为3。 |
NPROC_PER_NODE | 每个Worker节点的GPU卡数。例如,该Worker节点申请为8卡,则该Worker节点的NPROC_PER_NODE=8。 |
多机任务启动示例
torchrun启动:
Plain Text
1torchrun \
2 --nproc_per_node $NPROC_PER_NODE \
3 --nnodes $WORLD_SIZE \
4 --node_rank $RANK \
5 --master_addr $MASTER_ADDR \
6 --master_port $MASTER_PORT \
7 your_training_script.py
accelerate launch启动:
Plain Text
1num_processes=$((WORLD_SIZE * NPROC_PER_NODE))
2echo $num_processes
3accelerate launch --same_network --multi_gpu --gpu_ids all \
4 --num_machines $WORLD_SIZE --num_processes $num_processes \
5 --machine_rank $RANK --main_process_ip $MASTER_ADDR \
6 --main_process_port $MASTER_PORT \
7 your_training_script.py
TensorFlow环境变量
TensorFlow分布式作业通过TF_CONFIG环境变量来构建分布式的网络拓扑信息。百舸为TensorFlow训练配置的通用环境变量如下:
环境变量名 | 说明 |
---|---|
TF_CONFIG |
|