通信库检查
更新时间:2025-10-16
容器引擎CCE提供通信库检查功能,检查GPU节点的网络状态并提供可视化的诊断结果。基于NCCL通信库和多种通信模型进行测试。本文为您介绍通信库检查功能。
前置条件
- 已创建CCE集群。具体操作,请参见创建集群。
- 包含加速芯片(如GPU)的节点已处于可用状态。
注意事项
- 检查过程可能需要较长时间,请耐心等待。
- 检查期间,不建议进行其他对集群的操作,以免影响结果。
- 执行通信库检查系统将占用一定的计算资源用于检查,当检查完成之后会进行资源释放,请确保节点具有充足的资源,避免由于资源不足导致检查失败。
- 单次执行通信库检查需要确保节点的加速芯片类型相同。
- 系统默认采用经过验证的最佳实践参数执行通信库检查,如需特定配置,您可通过自定义参数进行灵活设置,支持配置的参数请参考下方的自定义参数配置说明。
- 诊断报告中AI智能分析由人工智能模型生成,因科技限制和生成式人工智能的特殊性,我们无法完全保证本服务模型的安全、可靠、可用和持续稳定,及生成内容的完整性和准确性。生成内容不代表百度云立场和观点。我们将不断提升服务质量,但不承诺服务的可用性和可靠性,并不对您使用本服务的结果负责。
- 超过50个执行检查中的任务时不支持再次点击立即检查。
操作步骤
1.登录百度智能云容器引擎 CCE 控制台,在左侧导航栏,点击 "集群管理->集群列表",进入集群列表页,点击集群名称,进入集群管理页面。
2.在左侧导航栏巡检与诊断,选择检查工具。
3.在检查工具选择通信库检查,点击“立即检查”
4.在弹出的对话框中,配置测试信息。
配置项 | 配置说明 |
---|---|
通讯库类别 | 目前只支持NCCL |
通讯模型 | 支持选择不同的通信模型,通信模型详细说明。 |
GPU节点加速芯片类型 | 选择GPU节点加速芯片类型。 |
选择节点 | 选择需要进行通信库测试的节点。 |
自定义测试参数 | 支持自定义测试参数。不配置的话系统默认采用经过验证的最佳实践参数执行测试。 |
日志持久化 | 支持是否选择开启日志持久化。开启日志持久化,日志服务(BLS)将会采集任务执行日志 ,并传输到在您账号下自动创建日志集中,日志服务会按照您的实际使用情况计费,计费标准请参考计费概述。 |
5.点击“确定”以启动检查流程。
6.检查完成后,系统将生成检查报告,用户可查看检查结果和建议。
查看报告
诊断列表展示了通信库检查的报告信息包括报告ID、检查结果、加速芯片、节点数量等,单击检查报告ID即可查看报告。
注意:
- 检查中的任务不支持查看报告详情。
自定义参数配置说明
Nvidia官网的 NCCL 提供了一系列丰富的环境变量,可用于针对特定场景进行调优。环境变量分为两类:
- System configuration:为了让 NCCL 遵循系统特定的配置,可以保留在脚本和系统配置中,详细的参数说明。
- Debugging:参数不应在生产环境中使用或保留在脚本中,只能作为临时解决方案使用,并应在问题解决后立即移除。保持这些参数的设置可能导致次优的性能表现、崩溃或挂起,详细的参数说明。
注意:
- 单次最多支持添加100个测试参数。
- 自定义参数的键、值字符最长为128字符。不支持空字符、非法字符的输入。
- 系统将根据您的GPU型号自动配置经过验证的最佳实践参数。为确保最佳性能和稳定性,建议使用系统默认配置的参数。如需自定义参数,系统将优先使用您的配置参数进行测试。