基于百舸平台对节点进行nccl-test

更新时间：2025-09-04

适用场景

为了确保分布式训练等依赖大规模并行计算的任务能高效、稳定运行，在启动任务前，可通过nccl-test来验证多GPU/多节点分布式系统中“集体通信”的性能与可靠性。

前置说明

全托管资源池

为了保证测试质量，建议创建一个专用于nccl-test的空队列，将需要进行nccl-test的节点移入该队列中，再在该队列上创建nccl-test分布式训练任务进行测试。

全托管创建队列1.png 全托管节点加入队列.png

自运维资源池

对于新购入的节点，为了防止被自动归入默认队列被调用，需要在购入节点时开启封锁设置。封锁节点.png

创建物理队列用于nccl-test，可指定节点加入该队列。

自运维创建队列.png

注意：如果节点设置了封锁，加入该队列后须取消封锁设置。

取消封锁节点.png

操作步骤

1. 创建分布式训练任务

您可以在百舸平台分布式训练模块中，快速发起训练任务。nccl-test参数配置如下：

1.1 基本信息

创建方式：选择“自定义创建”

基本信息.png

1.2 环境配置

镜像地址：registry.baidubce.com/aihc-aiak/aiak-training-llm:ubuntu22.04-cu12.3-torch2.2.0-py310-bccl1.2.7.2_v2.1.5.1_release
执行命令为：

Plain Text

1export OMPI_ALLOW_RUN_AS_ROOT=1
2export OMPI_ALLOW_RUN_AS_ROOT_CONFIRM=1
3export NCCL_DEBUG=INFO
4export NCCL_IB_DISABLE=0
5
6mpirun \
7  -x UCX_NET_DEVICES=mlx5_1:1 \
8  -x NCCL_IB_QPS_PER_CONNECTION=8 \
9  -x LD_LIBRARY_PATH \
10  -x NCCL_NET_PLUGIN=none \
11  -x NCCL_IB_DISABLE=0 \
12  -x NCCL_DEBUG=INFO \
13  -x NCCL_ALGO=Ring \
14  /usr/local/bin/all_reduce_perf_mpi -b 32M -e 16G -f 2 -g 1 -n 20