若该负载类型当前队列下暂无可选模板,系统将切换为自定义填写模式,允许手动输入资源参数。
若该负载类型当前队列下暂无可选模板,系统将切换为自定义填写模式,允许手动输入资源参数。
当前集群占用GPU的工作负载名称 类型 当前集群占用GPU的工作负载类型 命名空间 当前集群占用GPU的工作负载所在命名空间 开始时间 当前集群占用GPU的工作负载开始时间 运行时长 当前集群占用GPU的工作负载运行时长 GPU配给卡数 当前集群占用GPU的工作负载配给GPU卡数 显存平均利用率 当前集群占用GPU的工作负载内所有GPU卡显存平均利用率实时值 GPU平均利用率 当前集群占用GPU的工作负载内
创建工作负载支持为容器配置临时存储资源 • 创建工作负载支持配置时区同步 • 工作负载新增重新部署操作 • 新增 CCE CSI RapidFS Plugin 组件 • 支持弹性RDMA全生命周期管理 2025-07 • 优化创建节点组的交互页面 • 升级集群审计组件,支持大规格集群能力 • 新增调整期望节点数二次确认信息 • 节点组扩容支持部分成功 • HPAS节点组支持本地盘自定义挂载 •
导航路径: 容器引擎 CCE->集群管理->集群列表->目标集群->工作负载->无状态 进入目标工作负载后,单击 【编辑 YAML】 ,在 spec.template.spec.containers[].securityContext.capabilities.drop 中添加 NET_RAW ,使容器启动时主动丢弃该能力;如工作负载包含多个容器,请按需对对应容器分别配置。
gt;,若不设置此标签,则会以工作负载的名称 metadata.name 上报指标至 APM。
步骤二:CCE 集群创建工作负载 导航路径: 容器引擎 CCE->工作负载->无状态 在 CCE 集群中使用 CCR 镜像部署工作负载时,推荐使用 CCR 企业版实例的私有网络地址访问镜像。 在 CCE 控制台集群页面,进入 【工作负载->无状态】 。 点击 【新建无状态】 或 【使用Yaml创建】 ,进入工作负载创建页面。
理-RuntimeOffline 问题原因 通常是Dockerd配置异常、进程负载异常、节点负载异常等原因导致。 问题现象 通常是containerd配置异常、进程负载异常、节点负载异常等原因导致。 containerd状态为 inactive 。
调度层面: 配合精细化 DP 均衡调度,最大程度的消除 idle batch 占比,避免因为调度问题导致 DP 负载不均,减少 Prefill 侧产生 idle batch 的比例,避免出现大量请求排队的问题,从而提高 Prefill 单卡吞吐。
如果部署组已经Ready,可以不用关注) 18 # 查看 部署组的实际负载Pod 19 kubectl get pods -l rapidfs.baidu.com/instance = my-cache-deploy 20 21 # 查看 部署组的实际负载Pod 详情 22 kubectl describe pod < pod-name > 23 24 # 查看 部署组的实际负载Pod 日志