通过YAML创建LoadBalancer_Service 本文档会详细介绍如何在CCE下创建类型是LoadBalancer的Service。 注意 1:以下Annotation对1.16.3以下版本集群可能不生效,辛苦工单联系管理员处理 注意 2:一个LoadBalancer Service只能使用一个BLB,一个BLB也只能被一个LoadBalancer Service使用,不建议复用 BLB
视图命令行场景示例 一般的问题定位流程可以分为五个阶段: 问题发现 => 数据导出 => 关键错误提取 => 视图分析 => 问题处理 场景1:资源超配额 问题发现 :pytorchjob 没有进入running状态,对应的pod长时间pending % kubectl get pytorchjob NAME STATE AGE pytorchjob-bert-2-bert Created 58m
CCE混部监控开启Cprom 概况 Prometheus监控服务,是针对云原生场景提供的全托管、高可用、可扩展的Prometheus监控服务。完全对接开源Prometheus生态,支持多维度指标数据采集,支持灵活查询语句PromQL,基于Grafana提供开箱即用的监控Dashboard,集成多种告警通知渠道。 本文档将指导您如何打通CCE混部节点监控与Cprom。 前提条件 已成功 创建集群 。
CCE节点资源预留说明 在 CCE 集群中,节点初始化时需要运行一些必要的系统组件和Kubernetes组件,使该节点能够成功纳入该集群并正常提供服务,因此需要为这些组件预留一部分系统资源,您会看到节点资源总量与节点在Kubernetes中的可分配资源之间会存在差异。节点的规格越大,在节点上部署的容器可能会越多,需要需预留的资源可能越多。 为了保证节点的稳定性,CCE集群节点上会根据机器规格预留一
CCE 支持定时伸缩部署 一、定时、周期伸缩介绍 对于某些可预知的业务情形,可提前设置好定时伸缩任务,在业务波峰来临之前扩容工作容器,可以减少运维人员的工作量。目前CCE支持对Deployment、StatefulSet设置定时伸缩任务,同时支持定时伸缩与HPA结合使用,极大扩展了弹性伸缩的应用场景。 二、使用手册 前提: 创建CCE集群,集群版本>1.16.x 在已经创建的CCE集群中,按照如下
自动扩缩容常见问题 集群在什么条件下会扩容或缩容? 扩容:由于资源不足,pod 调度失败,即有 pod 一直处于 Pending 状态。 缩容:node 的资源利用率较低时,且此 node 上存在的 pod 都能被重新调度到其他 node 上运行。 自动扩缩容的扫描频率是多少? 30秒 扩缩容最大最小节点数的设置范围为多大? 最小节点数需要大于等于0,最大节点数需要小于等于当前集群节点数限额(该限
业务应用如何使用负载均衡? 业务应用过程中,可能会遇到高并发的场景,通过负载均衡 BLB 的流量均衡和分发功能,可以为应用提供多台 WebServer 并发服务的能力,从而达到业务水平扩展的效果。 目前创建业务应用的方式有两种: 一是通过 kubectl 创建业务应用; 二是通过 Kubernetes Dashboard 创建业务应用,因此创建和使用负载均衡的方式也分为以下两种: kubectl
部署 TensorFlow Serving 推理服务 本文介绍如何部署 TensorFlow Serving 推理服务,并指定队列、GPU资源。 前提条件 您已成功安装 CCE GPU Manager 和 CCE AI Job Scheduler 组件,否则云原生 AI 功能将无法使用。 操作步骤示例 这里用 TensorFlow Serving 作为示例,演示如何通过 deployment 部署
CCE集群网络说明及规划 概览 有效的规划集群的网络,可以适应业务发展的需要。 本文将介绍在百度智能云私有网络 VPC 环境下 CCE Kubernetes 集群里各种网络地址的作用,以及地址段该如何规划。 集群网络概念说明 集群网络包括:节点网络,容器网络和服务网络,概念分别如下。 节点网络 节点网络为集群内的主机分配 IP 地址的节点网络范围,创建集群时,需要选择节点网络的子网,更多节点网络和
适用场景: 以子网维度对流量做统计 以子网维度做安全策略,如ACL规则控制 通过NAT网关为特定子网开启互联网访问 1.