本地突发负载上云场景 当工作负载扩容,本地资源不足或者达到设置的最大值时,将实例溢出到云端BCI容器实例,限制本地最多创建30个实例。工作负载缩容时,优先释放云端BCI容器实例。
该方案可根据实例规模、集群磁盘使用率、集群机器负载、集群机架位和集群机器所在交换机等因素进行管理,使存储资源得到充分利用,并满足高性能的存储需求。 然而,随着时间的推移和集群的扩容或缩容等操作,存储系统中的副本分布可能会出现不均衡的现象。为了解决这一问题,GaiaDB 的分布式多租户存储方案能够提供统一的资源均衡策略。
查看容器组 查看容器组列表 导航路径: 产品服务->容器引擎 CCE->集群管理->集群列表->目标集群->工作负载->容器组 在 集群列表 中选择目标集群。 单击 【工作负载】 ,再单击 【容器组】 ,进入容器组列表。 在容器组列表中查看以下信息: Pod 状态:展示容器组原生 Phase 状态及健康检查 Conditions。
不可治理的原因: 关联分析任务已不存在 任务关闭重调度 预调度失败 达到任务最低保障副本 单负载的工作负载 无工作负载管理的Pod 关联Pod已不存在 错误的整理类型 推理服务摘流失败 推理服务终止失败 该Pod已在重调度中,重复的重调度 Pod迁移失败 该工作负载已达到最大pod迁移数 碎片治理 诊断完成后,可以基于诊断结果进行碎片治理: 操作步骤 登录 百舸AI计算平台AIHC控制台 。
不可治理的原因: 关联分析任务已不存在 任务关闭重调度 预调度失败 达到任务最低保障副本 单负载的工作负载 无工作负载管理的Pod 关联Pod已不存在 错误的整理类型 推理服务摘流失败 推理服务终止失败 该Pod已在重调度中,重复的重调度 Pod迁移失败 该工作负载已达到最大pod迁移数 碎片治理 诊断完成后,可以基于诊断结果进行碎片治理: 操作步骤 登录 百舸AI计算平台AIHC控制台 。
Kubernetes 可以有效提升业务编排能力和资源利用率,但在创建 Kubernetes 工作负载时,通常需要为工作负载配置合适的资源 Request ,表示对资源的占用和限制。其中,对资源利用率影响最大的是 Request 。为防止自己的工作负载所用资源被其他工作负载占用,或者为了应对业务高峰时的资源消耗诉求,用户习惯于将 Request 设置得偏大。
人工智能推理 针对深度学习的在线推理场景,相比训练负载,推理负载对GPU性能的要求降低,但对运行稳定性要求更高,对服务器响应延时也有了更高要求。 可选择NVIDIA Tesla A10、NVIDIA Tesla T4等GPU类型,在满足性能要求的同时,提供更具性价比的选择,同时支持GPU硬件级的解码功能并加速端到端的图片类推理性能。
盘读/写IO速率 单位时间内磁盘的读取/写入操作速率趋势图 队列工作负载 资源池监控可以与工作负载联动分析:结合队列工作负载查看功能,筛选特定队列的负载,手动终止低优任务,加速高优任务调度。 更多队列工作负载的介绍请参考 相关文档
个 CPU 最近一分钟负载 60s CPU 最近五分钟负载 个 CPU 最近五分钟负载 60s CPU 最近十五分钟负载 个 CPU 最近十五分钟负载 60s 内存监控 内存总量 Bytes 内存总量 60s 内存可用量 Bytes 内存可用量 60s 内存缓存大小 Bytes 内存缓存大小 60s 内存缓冲大小 Bytes 内存缓冲大小 60s 内存使用量 Bytes 内存使用量 60s 内存使用率
使用免密组件提交工作负载 免密组件安装成功以后,在免密组件生效的命名空间下使用ServiceAccount创建工作负载时,会自动注入CCR实例的镜像访问凭据。