CCE DeepTracker 说明
更新时间:2025-12-16
组件介绍
CCE DeepTrack 是一款专为大模型训练设计的在线性能诊断工具,提供实时训练任务 Slow 和 Hang 的自助诊断能力,帮助客户快速定位性能瓶颈,减少故障排查时间。
使用限制
- 当前 CCE DeepTrack 仅支持集群1.28及以上版本(CCE支持的版本说明)。
-
针对训练任务使用的 Nccl 版本需满足以下版本要求:
- Slow诊断: Nccl版本>= 2.27.3
- Hang诊断: Nccl版本>= 2.21.5
安装组件
- 登录百度智能云官网,并进入管理控制台。
- 选择产品导览>容器>容器引擎,单击进入容器引擎管理控制台。
- 单击左侧导航栏中的集群管理>集群列表。
- 在集群列表页面中,单击目标集群名称进入集群管理页面。
- 在集群管理页面单击运维与管理>组件管理。
- 在组件管理监控和日志tab中选择 CCE DeepTrack 组件单击“安装”。
- 点击“确定”按钮完成组件的安装。

部署情况
安装CCE 组件,将在Kubernetes集群中部署以下以下对象:
| 名称 | namespace | 所占资源 | 类型 |
|---|---|---|---|
| cce-deep-tracker-server | default |
|
Deployment |
| cce-deep-tracker-configuration | default | - | MutatingWebhookConfiguration |
| cce-deep-tracker-service | default | - | Service |
| cce-deep-tracker-tls | default | - | Secret |
| cce-deep-tracker-cluster-role | default | - | Clusterrole |
| cce-deep-tracker-role-binding | default | - | ClusterRoleBinding |
版本记录
| 版本号 | 适配集群版本 | 更新时间 | 更新内容 | 影响 |
|---|---|---|---|---|
| 1.0.0 | CCE/V1.28+ | 2025.12.15 | 首次发布组件 | — |
