如果需要对大规模的容器进行调度,也可以通过Virtual Kubelet将BCI无缝接入到CCE(百度云容器引擎服务)集群中,从而通过标准的Kubernetes API来进行BCI容器组的管理。
指定子网的Pod只能调度到子网所在可用区的节点,请确认可用区有Ready状态的节点。 固定IP和手动分配IP场景下只能使用专属子网(指定的子网只能供单个CCE集群使用),专属子网不支持变更为普通子网、不支持从集群内删除,详情见专属子网说明。 本文档仅适用于 v1 版本容器网络。 专属子网 : 当用户需要为Pod分配指定子网下的某几个IP时,IP所属的子网将自动被标记为手动分配IP模式。
2023-08 CCE 集群接入资源标签及 标签鉴权 ,支持通过标签对集群进行管理和授权。 存储组件 CCE CSI PFS Plugin 发布 1.2.5 版本,支持使用多个 PFS 实例,更多信息请见 使用并行文件存储 PFS 。 新增 负载感知调度插件 ,支持基于节点实际资源使用情况进行调度。
系统权限 策略名称 权限说明 权限范围 CHPCReadAccessPolicy 只读访问云高性能计算平台(CHPC)的权限 仅可以查看集群列表,及拥有的队列列表、节点列表、作业与监控报表、应用列表、作业列表 CHPCOperateAccessPolicy 运维操作云高性能计算平台(CHPC)的权限 队列管理: - 新增/创建队列 - 删除队列 - 扩容节点 - 配置扩缩容 节点管理: - 停止调度
封锁节点 必选 封锁节点开关,开启封锁节点后,节点将处于不可调度状态,新建的 Pod 将不会调度到该节点上,默认关闭。 自定义 kubelet 参数 可选 部署节点时,可自定义 kubelet 参数,具体信息请参见 kubelet参数 。 资源标签 可选 节点对应云服务器的标签,可通过标签实现云服务器资源的分类管理,具体信息请参见 标签 。
GPU显存共享单位 GiB GPU显存切分的最小单位,目前仅支持GiB 精细化调度 开启/关闭 关闭精细化调度后,资源上报不区分具体的GPU型号。 开启精细化调度后,创建队列和任务时均支持选择具体的GPU型号。
sbatch slurm 的 sbatch 命令是用于将作业(jobs)提交到 Slurm 集群以进行调度和执行的命令。它允许用户将包含作业描述的脚本文件(通常是 shell 脚本)提交到集群中执行。 主要命令格式如下: sbatch [OPTIONS] script.sh 一些常用的选项包括: -J, --job-name: 指定作业的名称。
容器编排 解决容器集群数量大、拓扑关系复杂、缓存、调用、高可用设计交错的管理运维同步问题。 提供跨主机容器化应用的部署、高可用、弹性伸缩、监控、通信等功能。 提供了一套完整、易用的 RESTful API 来封装功能。 提供集群自恢复机制(自动重启、自动重调度、自动备份等),维护集群一直处于用户期望的状态。 用户只需要关心资源申请,Kubernetes 自动化完成调度、分配、高可用、底层适配等。
单击左侧导航栏中的 集群管理 > 集群列表 。 在集群列表页面中,单击目标集群名称进入集群管理页面。 在集群管理页面单击 组件管理 。 在组件管理列表中选择 CCE GPU Manager 组件单击 安装 。 在确认安装弹出框中默认选择隔离最优型。 GPU显存共享单位默认选择GiB。 精细化调度默认开启。 点击“确认”按钮完成组件的安装。
在分集群之前,后端服务器会被整集群的机器进行健康检查,可能会存在上述现象。 当前负载均衡实例各个集群已经采用分集群架构,单个用户后端服务器只会被所在的分集群进行健康检查,该类健康检查请求已相对减少。