网络测试
更新时间:2024-11-16
百舸异构计算平台,提供基于NCCL通信库的性能测试工具。
说明
健康检查
在进行通信库测试之前,会首先进行节点的状态检测,节点状态检测通过才会进行通信库测试。 健康检测内容:
检测项目 | 检测通过要求 |
---|---|
节点 | 节点健康(k8s node ready) |
GPU状态 | GPU硬件正常,已安装GPU Driver/CUDA等基础软件,GPU资源能够被资源池识别 |
RDMA网卡 | 已安装Ofed驱动,RDMA网卡资源能够被资源池识别 |
GPU资源占用 | GPU资源是否被其他任务占用备注:为了保证测试结果的准确性,需要节点上没有任务占用GPU资源 |
超时设置
为避免诊断任务长时间占用资源池资源,系统为诊断任务设置了超时时间。如超过下述时间后,会直接删除诊断任务。
- 诊断任务创建超时时间:2min
- 诊断任务执行超时时间:5min
操作流程
通信库测试
下面介绍如何在百舸·AI异构计算平台控制台,进行通信库测试
- 登录百舸·AI异构计算平台控制台
- 在左侧导航栏,选择诊断工具>网络测试
- 选择通信库测试页签
- 配置测试信息
配置参数 | 说明 |
---|---|
通信库类别 | 目前仅支持 NCCL |
通信模型 | 目前仅支持 ALLReduce |
GPU数量 | 取值范围:1~8 |
资源池 | 测试节点所在的资源池名称 |
节点 | 选择资源池中的目标节点如上述GPU数量选择为1,请至少选择2个节点 |
- 点机开启测试
RDMA网络测试
下面介绍如何在百舸·AI异构计算平台控制台,进行RDMA网络测试。
- 登录百舸·AI异构计算平台控制台
- 在左侧导航栏,选择诊断工具>网络测试
- 选择RDMA网络测试页签
- 配置测试信息
配置参数 | 说明 |
---|---|
网络类别 | 目前仅支持 RDMA |
测试类型 | 目前仅支持 带宽测试 |
流量模型 | |
GDR | 开启或关闭,开启后可提高RDMA网络通信的可靠性。 |
测试时长 | 默认60s,可自定义。 |
资源池 | 测试节点所在的资源池名称 |
Clients | 选择资源池中的客户端节点,发起请求。 |
Servers | 选择资源池中的服务端节点,响应通信请求并处理数据。 |
- 点机开启测试
查看诊断历史
开启测试后,会实时展示测试的进展。 测试完成后,会展示测试结果、测试参数、测试命令以及详细的测试日志。支持用户查询历史诊断记录。