自定义服务自动扩缩容 如果业务负载出现显著的波峰波谷,为了避免资源浪费,您可以开启弹性扩缩容或定时扩缩容功能,根据业务负载的变化配置扩缩容策略,平台将自动调整服务的实例数量,实现计算资源的动态管理,确保业务平稳运行并提高资源利用率。 使用前提 使用弹性扩缩容功能前,需要先配置采集任务,具体步骤如下: 在“Prometheus服务”中创建一个监控实例。
整体处理思路: 找到影响CPU使用率或CPU负载过高的具体进程。 排查影响CPU使用率或CPU负载过高的进程是否正常,并分类进行处理。 正常进程:考虑进行实例规格升配,或调整、优化对应的进程/程序。 异常进程:可以手动对进程进行查杀,或考虑使用第三方安全工具。 CPU使用率高问题定位 首先,您需要登录BCC实例。
因此,需要创建一个名为 EnvoyFilter 的 CRD 资源对象,将 wasm filter 添加到对应工作负载的 envoy filter chain 中,使其生效。
在控制台创建工作负载 若您通过CCE控制台创建工作负载(操作步骤可参考工作负载),您可在工作负载的容器配置中指定GPU类型为独占或共享。独占和共享的资源输入限制和上文中AI任务的创建一致。 5.3.
注意: 容器的p2p标签需要打在工作负载的spec.template.metadata.labels下才可以有效的开启p2p功能。 也可以为CCE集群的命名空间设置标签,该命名空间下所有符合加速条件的工作负载都会启用按需加载容器镜像,无需再修改工作负载的YAML文件。
查看容器组 容器组 操作容器组 进入“产品服务>容器引擎CCE”,选择集群,点击“工作负载>容器组”,进入容器组列表。 查看容器组列表,然后选择集群和命名空间,显示选定集群和命名空间的容器组列表。其他内容包括: 状态概况:容器组总数包括,待部署、运行中、部署失败3种状态的数目。 CPU使用量:展示当前的CPU使用情况,以核数为单位。
1)通过表单形式创建: 点击 +创建定时任务 ; 基本信息:填写工作负载名称,选择命名空间、工作负载类型,按需添加K8S标签和注释; 容器配置:填写容器名称,选择镜像地址、版本,调整容器配额,申请加速卡资源点击加速卡资源申请开关并配置,新增容器配置点击 “+添加容器”; 高级设置-任务配置:配置定时规则、定时任务并发策略、定时超时时间、重试最大次数、任务超时时间、重启策略等; 高级设置-调度策略
说明 容器业务支持通过命名空间、工作负载进行搜索查询,但需要为日志集 配置索引 ,您可以在日志服务控制台进行索引配置。点击 索引管理 后,手工添加字段,并按照图中展示设置索引字段名称和数据类型。 开启索引配置后,请不要轻易修改索引字段,若更换索引字段会导致无法按照命名空间、工作负载等关键字进行快速查询容器日志。
配置自动伸缩策略 自动伸缩可以根据您配置的伸缩策略动态分配计算节点实例,实现根据实时负载自动增加或减少计算节点,以提高集群可用性,降低使用成本。 本文介绍如何配置自动伸缩策略。 功能优势 自动伸缩可以实现以下功能: 根据实时负载,自动增加计算节点,提高集群的可用性。 在保证集群可用性的前提下,自动减少计算节点,降低集群成本。 停止异常状态的节点,并创建相应的新节点,提高集群容错能力。
通过 Prometheus 获取各节点的负载统计信息,并根据用户设置的阈值对高负载节点上的 Pod 发起驱逐。 使用场景 基于节点 CPU/Memory 真实利用率进行 Pod 重调度。