当前集群占用GPU的工作负载名称 类型 当前集群占用GPU的工作负载类型 命名空间 当前集群占用GPU的工作负载所在命名空间 开始时间 当前集群占用GPU的工作负载开始时间 运行时长 当前集群占用GPU的工作负载运行时长 GPU配给卡数 当前集群占用GPU的工作负载配给GPU卡数 显存平均利用率 当前集群占用GPU的工作负载内所有GPU卡显存平均利用率实时值 GPU平均利用率 当前集群占用GPU的工作负载内
当前集群占用GPU的工作负载名称 类型 当前集群占用GPU的工作负载类型 命名空间 当前集群占用GPU的工作负载所在命名空间 开始时间 当前集群占用GPU的工作负载开始时间 运行时长 当前集群占用GPU的工作负载运行时长 GPU配给卡数 当前集群占用GPU的工作负载配给GPU卡数 显存平均利用率 当前集群占用GPU的工作负载内所有GPU卡显存平均利用率实时值 GPU平均利用率 当前集群占用GPU的工作负载内
混合调度 以多云的方式混合部署的客户,稳态资源一般用自建/公有云K8S集群IDC,弹性资源用BCI容器实例, 混合调度插件负责无侵入协调客户负载在K8S集群节点及BCI分布。其主要场景是帮助客户将弹性负载弹性到云上容器实例。
CCE Dynamic Scheduler 新增了 “基于节点真实负载” 的动态调度策略,用户在集群中安装该组件后,组件会根据从 Prometheus 采集的节点指标和用户设置的节点负载阈值对 Pod 实现动态调度。
GaiaDB 的分布式多租户存储方案将多个集群的数据统一存储在一个系统中。通过资源的闲置调度策略,该方案能够有效地利用存储资源,提高存储空间的利用率。同时,GaiaDB 还对副本管理进行了优化。该方案可根据实例规模、集群磁盘使用率、集群机器负载、集群机架位和集群机器所在交换机等因素进行管理,使存储资源得到充分利用,并满足高性能的存储需求。
CHPC集群部署在用户的私有网络中,可支持扩展不同可用区或子网的计算节点,这些计算节点可配置访问共享存储空间,即文件存储产品。业务人员可通过公网或者云上跳转机访问集群的登录节点提交作业,作业的文件输入及输出可存储在云上对象存储或者百度网盘中。 产品优势 灵活配置 支持对接百度智能云多种云服务器规格,满足不同应用负载的算力需求。 支持多种调度器系统,满足不同的行业使用习惯需求。
Redis集群版-单副本 单副本集群版实例采用集群架构,每个分片服务器采用单副本模式。适用于纯缓存类业务或者QPS压力较大的业务场景。 Redis集群版-双副本 集群(Cluster)实例采用分布式架构,每个数据分片都支持主从(master-replica)高可用,能够自动进行容灾切换和故障迁移。集群版提供多种规格,您可以根据业务压力的大小选择合适的规格,还可以随着业务的发展自由变配。
服务器具备 CpuLoadAvg15 最近十五分钟服务器负载 个 InstanceId 仅linux服务器具备 CpuLoadAvg5 最近五分钟服务器负载 个 InstanceId 仅linux服务器具备 CpuSystemPercent 系统CPU时间比率 % InstanceId CpuUserPercent 用户CPU时间比率 % InstanceId CpuWaitPercent 等待IO
升级变更点 1.主目录菜单 项目 变更前 变更后 说明 整体目录 简化主目录菜单,将命名空间、工作负载、流量接入、存储配置、监控日志移到集群详情页 2.集群详情页 项目 变更前 变更后 说明 集群详情 将命名空间、工作负载、流量接入、存储配置、监控日志移到集群详情,所有相关操作上下文均在该集群内,各功能包含原有子功能不变。
当 CCE-Node-Problem-Detector(简称 NPD)组件完成节点故障检测后,会以 Condition 或者 Event 的方式上报给 Kubernetes 集群。用户在集群中安装 CCE-Node-Remedier 后,组件会以 Deployment 作为工作负载运行,实时监听每个节点的故障信息,并根据用户自定义的故障处理规则对节点发起相应的维修操作。