CCE使用检查清单 概览 CCE 提供基于原生 Kubernetes 的容器管理服务,为方便用户更好的使用 CCE,我们从集群、应用、问题排查三个方面,总结出来一些典型实践的 checklist,强烈建议 CCE 用户在开始使用或服务上线前,能对照 checklist 过一遍,以帮忙您顺利的将服务迁移到 CCE 上,降低因为使用不当导致应用异常或需重建集群的风险。 集群检查项 类型 项目 建议 参
服务域名 API 的服务域名为: Region Endpoint Protocol 北京 cce.bj.baidubce.com HTTP and HTTPS 广州 cce.gz.baidubce.com HTTP and HTTPS 苏州 cce.su.baidubce.com HTTP and HTTPS 保定 cce.bd.baidubce.com HTTP and HTTPS 武汉 cce
CCE 集群节点自动伸缩 自动伸缩概述 CCE 的运行基于一组百度智能云服务器组成的集群,集群为用户的容器运行提供必要的基础资源,如CPU、内存和磁盘等。通常集群的规模在创建 CCE 服务的时候由用户定义,在使用 CCE 过程中也可以随时对集群进行扩容或者缩容。但是当用户的服务增长速度超过预期或者出现波动峰值时,集群提供的资源可能会不足以支撑服务所需,导致服务运行变慢。 通过开启 CCE 的自动伸
节点混部调度管理 离线作业只能调度到开启混部调度的Worker节点上,本文介绍如何为节点设置混部调度。 背景信息 容器引擎(CCE)支持通过节点组为节点组中的节点配置混部调度,节点组中的节点默认使用节点组的混部配置,您也可以为节点单独配置,单独配置的节点将不再使用节点组的混部配置,请知晓。 前提条件 已成功 创建集群 。 已安装 CCE Hybrid Manager 组件。 操作步骤 在节点上开启
CCE_Hybrid_Manager说明 组件介绍 基于Kubernetes场景下在线、离线作业混部管理组件,通过将作业进行混部,利用在线作业剩余空闲资源运行离线作业,提高集群资源利用率。 组件功能 cce-hybrid-scheduler: 离线任务调度器,根据sla配置及节点动态资源使用率调度离线作业; cce-hybridlet:混部agent,探测节点、作业资源使用率,根据sla配置对作业
CCE集群网络说明及规划 概览 有效的规划集群的网络,可以适应业务发展的需要。 本文将介绍在百度智能云私有网络 VPC 环境下 CCE Kubernetes 集群里各种网络地址的作用,以及地址段该如何规划。 集群网络概念说明 集群网络包括:节点网络,容器网络和服务网络,概念分别如下。 节点网络 节点网络为集群内的主机分配 IP 地址的节点网络范围,创建集群时,需要选择节点网络的子网,更多节点网络和
BLB Ingress Annotation说明 BLB Ingress Annotation说明 在使用CCE提供的 BLB类型 的Ingress资源时,可以通过在Annotation中添加注解的方式来使用Ingress的一些高级配置。 Annotation位于Ingress完整YAML的以下位置: apiVersion: extensions/v1beta1 kind: Ingress met
删除任务 您可以通过容器引擎管理控制台删除不再需要的任务。 前提条件 您已成功安装 CCE AI Job Scheduler 和 CCE Deep Learning Frameworks Operator 组件,否则云原生 AI 功能将无法使用。 您已成功创建任务。 操作步骤 登录 百度智能云官网 ,并进入管理控制台。 选择“产品服务 > 云原生 > 容器引擎 CCE”,单击进入容器引擎管理控制台
配置字典 配置字典 操作配置字典 进入“产品服务>容器引擎CCE”,点击“应用管理>配置字典”,进入配置字典列表页面。 查看配置字典列表,然后选择集群和命名空间,显示选定集群和命名空间的配置字典列表。 点击“创建配置字典”,用户可以通过yaml的形式创建新的配置字典,选择集群、命名空间,填写yaml文件,点击“确认”提交,返回服务列表。 复制:可以复制当前yaml文件的内容。 取消:返回列表页。
GPU独占和共享说明 若集群支持 GPU 算力和显存的共享与隔离,您可以在新建任务或工作负载的时候,通过控制台操作或根据提交的 YAML 来决定独占还是共享 GPU 资源。 前提条件 您已成功安装CCE GPU Manager 和 CCE AI Job Scheduler 组件。您可在“集群>组件管理>云原生AI”中安装。 节点已开启显存共享,您可在“集群>节点管理>Worker>显存共享配置”中