通用环境变量列表
更新时间:2024-11-05
提交分布式训练任务时,百舸平台会自动注入多个通用环境变量,便于您在代码中直接使用。本文为您介绍百舸平台默认提供的环境变量列表。
公共环境变量
高性能网络环境变量
高性能网络环境变量,详见平台预置NCCL环境变量
任务通用环境变量
环境变量名 | 描述 |
---|---|
AIHC_JOB_NAME | 任务的名称 |
AIHC_TENSORBOARD_LOG_PATH | Tensorboard日志路径(仅开启了Tensorboard的任务会默认注入) |
PyTorch环境变量
在PyTorch分布式训练框架中,Master和Worker扮演不同的角色并需要相互建立连接以进行通信。百舸平台为PyTorch训练任务默认注入通用环境变量,用于关键信息的同步。
环境变量名 | 说明 |
---|---|
MASTER_ADDR | Master节点地址,默认为 {任务名称}-master-0 |
MASTER_PORT | 所有worker进行通信协商的端口号,默认23456 |
RANK | 节点的Index。例如,若提交一个包含1个Master和2个Worker的作业,则Master上设置的RANK为0,Worker-0设置的RANK为1, Worker-1设置的RANK为2。 |
WORLD_SIZE | 训练的节点总数,例如,若提交一个包含1个Master和2个Worker的作业,则WORLD_SIZE设置为3。 |