监控项 说明 负载类型 当前集群占用 NPU 的工作负载类型 负载名称 当前集群占用 NPU 的工作负载名称 命名空间 当前集群占用 NPU 的工作负载所在命名空间 NPU 配给卡数 当前集群占用 NPU 的工作负载配给 NPU 卡数 显存平均利用率 当前集群占用 NPU 的工作负载内所有 NPU 卡显存平均利用率实时值 NPU 平均利用率 当前集群占用 NPU 的工作负载内 NPU 卡平均利用率实时值
本地突发负载弹性上容器实例场景 当工作负载扩容,本地资源不足或者达到设置的最大值时,将实例溢出到云端BCI容器实例,限制本地最多创建30个实例。工作负载缩容时,优先释放云端BCI容器实例。工作负载缩容时,优先释放云端实例。
基于真实负载的调度策略: 描述:当节点超过安全水位时,新部署的pod会按照当前所有节点的真实负载最优的进行调度 观察工作负载所在节点的负载情况 部署其他服务进行调度,并观察调度日志,发现node-172.16.80.33真实负载最低,得分最高 观察服务调度部署情况,发现部署的服务调度到负载最低(得分最高)的节点 node-172.16.80.33 上 预期结果 负载超过阈值的node不会再部署其他服务
点击 【创建普通任务】 后,可进入创建工作负载向导,查看 工作负载名称 、 命名空间 、 工作负载类型 、 K8S 标签(Label) 、 注解(Annotation) 、 时区同步 等配置项;如需返回任务列表,可点击 【取消】 。 新建普通任务 普通任务支持通过表单方式和 YAML 方式创建。
本地突发负载上云场景 当工作负载扩容,本地资源不足或者达到设置的最大值时,将实例溢出到云端BCI容器实例,限制本地最多创建30个实例。工作负载缩容时,优先释放云端BCI容器实例。
查看容器组 查看容器组列表 导航路径: 产品服务->容器引擎 CCE->集群管理->集群列表->目标集群->工作负载->容器组 在 集群列表 中选择目标集群。 单击 【工作负载】 ,再单击 【容器组】 ,进入容器组列表。 在容器组列表中查看以下信息: Pod 状态:展示容器组原生 Phase 状态及健康检查 Conditions。
该方案可根据实例规模、集群磁盘使用率、集群机器负载、集群机架位和集群机器所在交换机等因素进行管理,使存储资源得到充分利用,并满足高性能的存储需求。 然而,随着时间的推移和集群的扩容或缩容等操作,存储系统中的副本分布可能会出现不均衡的现象。为了解决这一问题,GaiaDB 的分布式多租户存储方案能够提供统一的资源均衡策略。
不可治理的原因: 关联分析任务已不存在 任务关闭重调度 预调度失败 达到任务最低保障副本 单负载的工作负载 无工作负载管理的Pod 关联Pod已不存在 错误的整理类型 推理服务摘流失败 推理服务终止失败 该Pod已在重调度中,重复的重调度 Pod迁移失败 该工作负载已达到最大pod迁移数 碎片治理 诊断完成后,可以基于诊断结果进行碎片治理: 操作步骤 登录 百舸AI计算平台AIHC控制台 。
不可治理的原因: 关联分析任务已不存在 任务关闭重调度 预调度失败 达到任务最低保障副本 单负载的工作负载 无工作负载管理的Pod 关联Pod已不存在 错误的整理类型 推理服务摘流失败 推理服务终止失败 该Pod已在重调度中,重复的重调度 Pod迁移失败 该工作负载已达到最大pod迁移数 碎片治理 诊断完成后,可以基于诊断结果进行碎片治理: 操作步骤 登录 百舸AI计算平台AIHC控制台 。
Kubernetes 可以有效提升业务编排能力和资源利用率,但在创建 Kubernetes 工作负载时,通常需要为工作负载配置合适的资源 Request ,表示对资源的占用和限制。其中,对资源利用率影响最大的是 Request 。为防止自己的工作负载所用资源被其他工作负载占用,或者为了应对业务高峰时的资源消耗诉求,用户习惯于将 Request 设置得偏大。