集群检查项 类型 项目 建议 参考文档 集群 节点数 不管服务规模多小,对于线上服务,强烈建议集群节点数至少大于1,且需要预留一定的资源 buffer,避免单点故障导致业务受损 节点密码 节点的 root 密码请务必设置为强密码 节点网络 如果集群有对外访问需求,不建议节点直接绑定 EIP,节点对外暴露有安全风险,可以通过为集群VPC网络绑定NAT网关实现访问公网的能力。
参数 必填 说明 任务类型 是 选择 AITrainingJob 。 训练框架 是 选择 Horovod 。 训练方式 是 选择分布式。 角色 是 选择 Launcher ,并设置 Pod 的弹性范围。 在 容器组配置 的 生命周期 中配置启动命令。
完整的 Ingress Annotation 配置请参考 Annotations - NGINX Ingress Controller 示例 以下是一个集群中的 Ingress 资源内容以供参考: Plain Text 复制 1 apiVersion: networking.k8s.io/v1 2 kind: Ingress 3 metadata: 4 annotations: 5 cce.ingress.blb-backup-content
配置项:使用已有配置项ConfigMap创建数据卷,支持全部挂载和部分挂载,指定部分数据挂载时,支持配置多数据item,用半角分号(;)分隔。例如 cm1:path1;cm2:path2 。 保密字典:使用已有保密字典Secret创建数据卷,支持全部挂载和部分挂载,指定部分数据挂载时,支持配置多数据item,用半角分号(;)分隔。例如 sc1:path1;sc2:path2 。
如果对应的路径不存在,在挂载PV时会自动创建该路径。
检查PVC状态为Bound Plain Text 复制 1 $ kubectl get pvc dynamic-pvc 2 NAME STATUS VOLUME CAPACITY ACCESS MODES STORAGECLASS AGE 3 dynamic-pvc Bound pvc-1ab36e4d1d2711e9 50Gi RWX pfsl2-sc 4s 4.
CoreDNS 组件手动升级指南 CoreDNS 和 K8S 版本的兼容性 CoreDNS 镜像版本 支持的 K8S 版本 1.7.1 1.18 1.9.4-baidu 1.20 、 1.24 、 1.26 、 1.28 注意: 升级 CoreDNS 会导致全集群断网 5 分钟,请做好评估后再进行升级。
对于一些简单的场景,可以通过在List请求中增加ResourceVersion参数,在kube-apiserver cache中查询,如 k8sClient.CoreV1().Pods( ).List(metav1.ListOptions{ResourceVersion: 0 })。
配置项:使用已有配置项ConfigMap创建数据卷,支持全部挂载和部分挂载,指定部分数据挂载时,支持配置多数据item,用半角分号(;)分隔。例如 cm1:path1;cm2:path2 。 保密字典:使用已有保密字典Secret创建数据卷,支持全部挂载和部分挂载,指定部分数据挂载时,支持配置多数据item,用半角分号(;)分隔。例如 sc1:path1;sc2:path2 。
10s 3.