保持不配置 _cgpu_core 字段,使算力按共享策略生效。 提交前校验单卡显存是否为正整数,且不小于 1 GiB。
1/1 Running 0 14s 注意: 符号 $ 代表输入的指令,其他行代表输入指令后显示的容器的信息。
1.17后已过时) bj topology.kubernetes.io/region 节点所在地域 bj failure-domain.beta.kubernetes.io/zone 节点所在可用区(k8s 1.17后已过时) zoneA topology.kubernetes.io/zone 节点所在可用区 zoneA beta.kubernetes.io/instance-gpu
示例如下: YAML 复制 1 kind: ClusterRole 2 apiVersion: rbac.authorization.k8s.io/v1 3 metadata: 4 name: custom-cluster-role 5 rules: 6 - apiGroups: [""] 7 resources: ["pods"] 8 verbs: ["
2024-03-21 组件新增对机器 gid 跳序的故障检测 -- 0.8.24 v1.18+ 2024-03-01 组件新增 Kubelet 故障检测 支持配置在 Metrics Labels 中禁用 bce-instance-id 优化组件配置 -- 0.8.23 v1.18+ 2024-01-08 适配 ubuntu22.04 操作系统 更新基础镜像,减少镜像体积, 2G -> 278M
字段解释 参数 必填 说明 completions 否 表示 Job 结束时需要成功运行的 Pod 数,默认为 1 。 parallelism 否 表示并行运行的 Pod 数,默认为 1 。 backoffLimit 否 表示 Job 失败后的最大重试次数,默认为 6 。
调度器对某个 Pod 是否可以被调度的决策,是由一组可配置的策略决定,被称为 predicates 和 priorities。调度器的决策是受到待调度的 Pod 出现时的集群资源视图影响的,这种一次性的调度存在局限:Node 节点数量、标签、污点、容忍等的变动可能会导致已经被调度过的 Pod 不是最优调度。我们可能需要将某些已经处于运行状态的 Pod 迁移到其他节点上。
示例 yaml 如下: YAML 复制 1 apiVersion: v1 2 kind: Service 3 metadata: 4 name: pod-direct-service-example 5 annotations: 6 prometheus.io/scrape: "true" 7 service.beta.kubernetes.io/cce-load-balancer-backend-type
34, 0.08);color:rgba(0, 0, 0, 0.85);font-weight:bold;text-align:left;vertical-align:top} 监控项 说明 总卡数 当前节点内全部NPU卡数 分配数 当前节点内已分配的NPU卡数 卡分配率 分配率=已分配NPU卡数/总NPU卡数 卡使用情况 .tg {border-collapse:collapse;border-spacing
队列内优先级抢占指同一队列中,优先级高的任务可抢占优先级低任务的资源,保障高优先级任务的运行;队列间超发抢占是指A队列资源用满B队列有空闲资源时,此时若A队列上提交了新任务,将调度到B队列上运行,当B队列上有新任务提交发现资源不足时,将Kill超发任务保障B队列任务运行。 抢占功能使用可参考 队列管理 和 任务管理 中相关说明。