CCE Deep Learning Frameworks Operator 说明

更新时间：2025-08-05

组件介绍

主流深度学习框架 operator 组件，结合 CCE AI Job Scheduler，可实现直接在 CCE 上进行深度学习模型训练。

组件功能

集成主流深度学习框架，提供开箱即用的深度学习任务提交能力，目前支持以下深度学习框架：

1、TensorFlow（TFJob）

2、PyTorch（PyTorchJob）

3、MXNet（MXJob）

4、PaddlePaddle（PaddleJob）

使用场景

您可以直接在 CCE 集群上运行深度学习任务，提高 AI 工程效率。

限制说明

仅支持 v1.18 及以上版本的 Kubernetes 集群。

安装组件

登录百度智能云官网，并进入管理控制台。
选择“产品服务 > 云原生 > 容器引擎 CCE”，单击进入容器引擎管理控制台。
单击左侧导航栏中的 集群管理 > 集群列表 。
在集群列表页面中，单击目标集群名称进入集群管理页面。
在集群管理页面单击 运维与管理 > 组件管理 。
在组件管理列表中选择 CCE Deep Learning Frameworks Operator 组件单击“安装。

框架：目前支持 TensorFlow、Pytorch、Mxnet、PaddlePaddle 四种深度学习框架。

版本记录

评价此篇文章

有帮助没帮助

CCE GPU Manager 说明

CCE RDMA Device Plugin 说明

版本号	适配集群版本	更新时间	更新内容	影响
1.6.33	CCE/v1.18+	2025.06.18	新功能：容错replace产品化训练任务支持配置最大运行时长	此次升级不会对业务造成影响
1.6.32	CCE/v1.18+	2025.05.22	新功能：开启高精度监控	此次升级不会对业务造成影响
1.6.31	CCE/v1.18+	2025.02.18	新功能：训练容错支持碎片整理重调度修复： training-operator 性能优化 ftagent 心跳异常问题修复 stop job 残留问题修复	此次升级不会对业务造成影响
1.6.30	CCE/v1.18+	2025.01.21	新功能：训练容错支持无条件重试 job 容错重提支持复用原有节点容错时故障节点增加反亲和调度策略记录容错 pod ip 到日志支持基于node condition 触发容错秒级故障感知一半任务报故障基于栈的hang感知功能支持手动触发tracehang 增加部分进程退出tracehang辅助诊断逻辑优化： ftagent代码优化	此次升级不会对业务造成影响
1.6.29	CCE/v1.18+	2024.12.30	新功能：支持 pod 异常删除检测，发现异常删除进行容错支持 terminating pod 超时强删	此次升级不会对业务造成影响
1.6.28	CCE/v1.18+	2024.12.20	新功能：支持任务定时提交	此次升级不会对业务造成影响
1.6.27	CCE/v1.18+	2024.11.18	新功能：支持BCCL秒级故障检测支持已知故障 system pattern快速容错支持容错资源使用率异常感知(rdma指标) 支持训练任务一键安装使能BCCL 支持启动任务时间过长快速失败修复：修复未设置容错的情况下，event中出现容错失败的信息线上aibox 告警endpoint映射异常默认3分钟强删Terminating pod 优化：针对replace、心跳超时检测的一系列优化 chart 包增加对污点的容忍	此次升级不会对业务造成影响
1.6.26	CCE/v1.18+	2024.11.04	新功能：支持 replace 容错支持 ftagent 上报心跳、僵尸进程、D进程等信息支持任务PFS实例信息指标支持任务tracehang检测支持任务退出后回收cprom上的告警规则创建训练任务注入 hostfile	此次升级不会对业务造成影响
1.6.25	CCE/v1.18+	2024.09.20	新功能：支持导出容错监控指标支持用户自定义容错pattern 修复：默认3分钟强删Terminating pod	此次升级不会对业务造成影响
1.6.24	CCE/v1.18+	2024.09.18	新功能：支持Nvidia A800 和 kunlun P800 的单任务混训任务提交	此次升级不会对业务造成影响
1.6.23	CCE/v1.18+	2024.09.11	新功能：支持训练hang场景检测&告警 mpijob自动注入ssh免密登陆配置优化： pytorchjob任务timeline字段优化任务所在节点发生nic up/down故障场景，容错能力优化	此次升级不会对业务造成影响
1.6.22	CCE/v1.18+	2024.08.28	新功能：支持停止处于排队中/启动中状态的任务优化：支持展示更精确的任务状态优化 MPIJob laucher 在 worker 未启动会重试几次的问题	此次升级不会对业务造成影响
1.6.21	CCE/v1.18+	2024.07.22	新功能： MPIJob支持通过任务标签配置RDMA亲和性策略 ftagent-exporter性能指标适配P800集群优化： master和woker优化退出超时机制增加容错触发后pod长时间处于terminating可强制删除开关容错内部与k8s交互逻辑改为informer	-
1.6.20	CCE/v1.18+	2024.05.29	修复: ftagent 会占用 8080 端口的问题	-
1.6.19	CCE/v1.18+	2024.05.29	新功能： training-operator 默认开启 job-barrier, job-barrier 支持容错抢占 training-operator 支持异步清理终态任务的 service training-operator 支持打上 stop condition && stop init container 修复：特殊情况下会重复创删 pod service	-
1.6.18	CCE/v1.18+	2024.05.17	新功能： ftagent-exporter 适配AIAK2.0镜像支持Loss指标回溯时间更新为60s&针对容错优化好未来nic up down 场景	-
1.6.17	CCE/v1.18+	2024.04.12	新功能： ftagent-exporter 指标新增 pod_name, job_name 标签	-
1.6.16	CCE/v1.18+	2024.03.11	新功能：支持训练任务性能指标采集和上报：吞吐性能指标、分阶段耗时指标	-
1.6.15	CCE/v1.18+	2024.02.26	任务被抢占&触发容错重调度，pytorchjob置为Restarting状态，修复pytorchjob没有Created状态bug，修复pod failed pytorchjob为running bug；新增ftagent exporter，支持集合通信带宽指标暴露；	-
1.6.14	CCE/v1.18+	2024.02.06	新增任务事件timeline&容错事件&tensorboard gc	-
1.6.13	CCE/v1.18+	2024.01.17	新增master/worker node not ready 场景容错优化	-
1.6.12	CCE/v1.18+	2023.12.18	新增 Training-Operator、Mpi-Operator 支持优先级抢占; bugfix: Mpi-Operator 修复同名任务频繁创删场景创建 pod 卡住问题	-
1.6.11	CCE/v1.18+	2023.12.04	新增自动容错覆盖节点not ready的场景;	-
1.6.10	CCE/v1.18+	2023.11.22	新增容错支持 master-worker 模式	-
1.6.9	CCE/v1.18+	2023.11.03	新增hang 检测解耦etcd；新增非法任务名校验；新增任务名长度校验不超过50；bugfix: ft-agent 支持重启策略为OnFailure Pod；修复c10d 作业概率性创建失败问题；新增容错开关；任务hang 支持容错；1.6.9 版本不部署etcd；新版本容错对接控制台；training-operator 默认关闭job barrier 功能；	-
1.6.8	CCE/v1.18+	2023.10.10	容错功能重构，解决任务失败资源无法释放的问题	-
1.6.6	CCE/v1.18+	2023.08.25	PytorchJob支持hang检测；MPIJob支持hostfile注入worker节点和任务停止；修复training-operator快速删除、创建任务时Pod无法被创建；PytorchJob initContainer添加最大重试次数；Training-Operator 任务失败 ftagent 退出时清理训练进程	-
1.6.5	CCE/v1.18+	2023.07.07	升级 Pytorchjob支持宕机容错	-
1.6.4	CCE/v1.18+	2023.07.05	MPI Operator 指定 gang-scheduling，改为由 operator 维护 pg	-
1.6.3	CCE/v1.18+	2023.06.27	新增 MPI Operator 与 Paddle Operator；支持作业停止；TrainingOperator可将作业状态通过exporter对外暴露	-
1.6.1	CCE/v1.18+	2023.05.30	升级 Pytorchjob支持硬件故障（GPU、NIC）容错	-
0.3.0	CCE/v1.18+	2022.05.12	升级为 TrainingOperator 将 PyTorch/Tensorflow/MXNet Operator 合并	不支持一键升级，需先卸载旧版插件重新安装
0.2.1	CCE/v1.18+	2022.03.02

容器引擎 CCE