CCE Deep Learning Frameworks Operator 说明
更新时间:2024-09-14
组件介绍
主流深度学习框架 operator 组件,结合 CCE AI Job Scheduler,可实现直接在 CCE 上进行深度学习模型训练。
组件功能
集成主流深度学习框架,提供开箱即用的深度学习任务提交能力,目前支持以下深度学习框架:
1、TensorFlow(TFJob)
2、PyTorch(PyTorchJob)
3、MXNet(MXJob)
4、PaddlePaddle(PaddleJob)
使用场景
您可以直接在 CCE 集群上运行深度学习任务,提高 AI 工程效率。
限制说明
- 仅支持 v1.18 版本的 Kubernetes 集群。
安装组件
- 登录百度智能云官网,并进入管理控制台。
- 选择“产品服务 > 云原生 > 容器引擎 CCE”,单击进入容器引擎管理控制台。
- 单击左侧导航栏中的 集群管理 > 集群列表 。
- 在集群列表页面中,单击目标集群名称进入集群管理页面。
- 在集群管理页面单击 组件管理 。
- 在组件管理列表中选择 CCE Deep Learning Frameworks Operator 组件单击“安装。
- 在组件配置页面中完成深度学习框架配置。
- 框架:目前支持 TensorFlow、Pytorch、Mxnet、PaddlePaddle 四种深度学习框架。
注意:至少需要选择一个组件,支持多选。
-
- 点击“安装”按钮完成组件的安装。
版本记录
版本号 | 适配集群版本 | 更新时间 | 更新内容 | 影响 |
---|---|---|---|---|
1.6.23 | CCE/v1.18+ | 2024.09.11 | 新功能: 支持训练hang场景检测&告警 mpijob自动注入ssh免密登陆配置 优化: pytorchjob任务timeline字段优化 任务所在节点发生nic up/down故障场景,容错能力优化 | 此次升级不会对业务造成影响 |
1.6.22 | CCE/v1.18+ | 2024.08.28 | 新功能: 支持 停止处于排队中/启动中状态的任务 优化: 支持展示更精确的任务状态 优化 MPIJob laucher 在 worker 未启动会重试几次的问题 | 此次升级不会对业务造成影响 |
1.6.21 | CCE/v1.18+ | 2024.07.22 | MPIJob支持通过任务标签配置RDMA亲和性策略;ftagent-exporter性能指标适配P800集群;job barrier优化,master和woker优化退出超时机制;增加容错触发后pod长时间处于terminating可强制删除开关;容错内部与k8s交互逻辑改为informer | |
1.6.20 | CCE/v1.18+ | 2024.05.29 | 修复 ftagent 会占用 8080 端口的问题 | |
1.6.19 | CCE/v1.18+ | 2024.05.29 | training-operator 默认开启 job-barrier, job-barrier 支持容错抢占; training-operator 支持异步清理终态任务的 service; training-operator 支持打上 stop condition && stop init container; 修复特殊情况下会重复创删 pod service | |
1.6.18 | CCE/v1.18+ | 2024.05.17 | ftagent-exporter 适配AIAK2.0镜像&支持Loss指标&回溯时间更新为60s&针容错针对好未来nic up down 场景优化 | |
1.6.17 | CCE/v1.18+ | 2024.04.12 | ftagent-exporter 指标新增 pod_name, job_name 标签 | |
1.6.16 | CCE/v1.18+ | 2024.03.11 | 支持训练任务性能指标采集和上报:吞吐性能指标、分阶段耗时指标 | |
1.6.15 | CCE/v1.18+ | 2024.02.26 | 任务被抢占&触发容错重调度,pytorchjob置为Restarting状态,修复pytorchjob没有Created状态bug,修复pod failed pytorchjob为running bug;新增ftagent exporter,支持集合通信带宽指标暴露; | |
1.6.14 | CCE/v1.18+ | 2024.02.06 | 新增任务事件timeline&容错事件&tensorboard gc | |
1.6.13 | CCE/v1.18+ | 2024.01.17 | 新增master/worker node not ready 场景容错优化 | |
1.6.12 | CCE/v1.18+ | 2023.12.18 | 新增 Training-Operator、Mpi-Operator 支持优先级抢占; bugfix: Mpi-Operator 修复同名任务频繁创删场景 创建 pod 卡住问题 | |
1.6.11 | CCE/v1.18+ | 2023.12.04 | 新增自动容错覆盖节点not ready的场景; | |
1.6.10 | CCE/v1.18+ | 2023.11.22 | 新增容错支持 master-worker 模式 | |
1.6.9 | CCE/v1.18+ | 2023.11.03 | 新增hang 检测解耦etcd;新增非法任务名校验;新增任务名长度校验不超过50;bugfix: ft-agent 支持重启策略为OnFailure Pod;修复c10d 作业概率性创建失败问题;新增容错开关;任务hang 支持容错;1.6.9 版本不部署etcd;新版本容错对接控制台;training-operator 默认关闭job barrier 功能; | |
1.6.8 | CCE/v1.18+ | 2023.10.10 | 容错功能重构,解决任务失败资源无法释放的问题 | |
1.6.6 | CCE/v1.18+ | 2023.08.25 | PytorchJob支持hang检测;MPIJob支持hostfile注入worker节点和任务停止;修复training-operator快速删除、创建任务时Pod无法被创建;PytorchJob initContainer添加最大重试次数;Training-Operator 任务失败 ftagent 退出时清理训练进程 | |
1.6.5 | CCE/v1.18+ | 2023.07.07 | 升级 Pytorchjob支持宕机容错 | |
1.6.4 | CCE/v1.18+ | 2023.07.05 | MPI Operator 指定 gang-scheduling,改为由 operator 维护 pg | |
1.6.3 | CCE/v1.18+ | 2023.06.27 | 新增 MPI Operator 与 Paddle Operator;支持作业停止;TrainingOperator可将作业状态通过exporter对外暴露 | |
1.6.1 | CCE/v1.18+ | 2023.05.30 | 升级 Pytorchjob支持硬件故障(GPU、NIC)容错 | |
0.3.0 | CCE/v1.18+ | 2022.05.12 | 升级为 TrainingOperator 将 PyTorch/Tensorflow/MXNet Operator 合并 | 不支持一件升级,需先卸载旧版插件重新安装 |
0.2.1 | CCE/v1.18+ | 2022.03.02 | 新增:AiTrainingJob Webhook | |
0.2.0 | CCE/v1.18+ | 2022.01.21 | 新增:AI Training Operator | |
0.1.0 | CCE/v1.18+ | 2021.05.31 | 首次上线 | - |