CCE发布Kubernetes 1.20版本说明 百度智能云容器引擎CCE严格遵循社区一致性认证,本文介绍CCE发布Kubernetes 1.20版本相对1.18版本所做重要变更说明。
登录/注册 个人中心 消息中心 退出登录 本次直播已结束,点击观看回放 文档解析:大模型应用的加速引擎与实战突破 千帆大模型训练营 免费大模型课程 讨论区 暂无数据 直播详情 课程主题:文档解析:大模型应用的加速引擎与实战突破 课程亮点 爆肝干货:深入剖析文档解析在大模型应用中的原理及适用场景 避坑指南:现场拆解真实案例,让知识迅速转化为生产力 效能升级:搭建文档解析知识体系,大幅提升开发效率与质量
选择“产品服务 > 云原生 > 容器引擎 CCE”,单击进入容器引擎管理控制台。 单击左侧导航栏中的 集群管理 > 集群列表。 在集群列表页面中,单击目标集群名称进入集群管理页面。 在集群管理页面单击 工作负载>容器组 。
fn ( output , target ) 20 # 用scaler,scale loss(FP16),backward得到scaled的梯度(FP16) 21 scaler . scale ( loss ) . backward ( ) 22 # 当使用梯度裁剪时,遵守torch原生AMP调用规则
变更影响 注意: 自 2025 年 11 月 21 日 起,新建的 CCE 托管集群将开始收费,具体计费规则请参见 集群管理费用(CCE 托管集群) 。 调整过程不会影响存量用户托管集群功能的正常使用。
使用并行文件存储PFS L2 容器引擎CCE支持通过创建PV/PVC,并为工作负载挂载数据卷方式使用百度智能云 并行文件存储PFS 极速型L2 。本文将介绍如何在集群中动态和静态挂载并行文件存储。 前提条件 集群已安装并行文件存储组件,更多信息请见 CCE CSI PFS L2 Plugin 说明 。
使用对象存储BOSFS 1.0 概述 容器引擎 CCE 支持通过创建 PV/PVC,并为工作负载挂载数据卷的方式使用百度智能云 对象存储BOS 。本文介绍在集群中静态挂载对象存储,并提供通过 kubectl 命令行和 CCE 控制台两种挂载方式。 使用限制 集群 Kubernetes 版本需大于或等于 1.16。 请注意创建的 BOS Bucket 所处地域,需要和CCE集群在同一个地域。
CCE发布Kubernetes 1.26版本说明 百度智能云容器引擎CCE严格遵循社区一致性认证, 本文介绍 CCE 发布 Kubernetes 1.26 版本相对 1.24 所做重要变更说明。
3.任务提交 导航路径: 容器引擎 CCE->集群管理->集群列表->目标集群->云原生 AI->任务管理 点击 【新建任务】 ,完成训练任务基础配置。 参数 必填 说明 任务类型 是 选择 AITrainingJob 。 训练框架 是 选择 Horovod 。 训练方式 是 选择分布式。 角色 是 选择 Launcher ,并设置 Pod 的弹性范围。
导航路径: 容器引擎 CCE->集群列表->目标集群->运维与管理->组件管理->云原生 AI 在 【云原生 AI】 页签中,找到 【CCE RDMA Device Plugin】 。 单击 【安装】 ,完成组件安装。 确认RDMA Device Plugin已正常运行,且在每个有RDMA的节点都已启动。