1.1 CNI 错误 CNI 错误是指在单机创建 Pod 时,容器网络组件无法正常创建 Pod 的网络资源。CCE 对创建 Pod 失败的原因进行了分类,并给出对应解决方案。 1.1.1 VPC-ENI 模式 错误代码 解释 触发条件 解决方案 ENIIPCapacityExceed ENI 上挂载的辅助 IP 数量达到配额限制 容器网络组件创建的 ENI 上辅助 IP 数量超过配额限制。
Kubernetes 集群的资源利用率不高的主要原因是根据 Kubernetes 的资源调度逻辑,在创建 Kubernetes 工作负载时,通常需要为工作负载配置合适的资源 Request,表示对资源的占用和限制,其中对利用率影响最大的是 Request。 为防止自己的工作负载所用的资源被别的工作负载所占用,或者是为了应对高峰流量时的资源消耗诉求,用户习惯于为 Request 设置较大的数值。
spv8w 1/1 Running 0 14s 注意: 符号 $ 代表输入的指令,其他行代表输入指令后显示的容器的信息。
组件状态确认 通过如下命令查看K8s集群中跟CCE Ascend MindX DL组件相关的Pod,需要满足以下Pod的STATUS都为Running,READY都为1/1,则该组件运行状态为正常。
版本支持策略 集群创建: CCE支持创建最近的三个Kubernetes次要版本的集群。例如,最近的三个次要版本为1.31、1.30、1.28。CCE支持1.31版本后,1.26版本不再开放创建功能,过期补丁版本也不再开放创建功能。当某个次要版本发布了新的补丁版本后,低版本的补丁版本不再开放创建功能。例如,1.30.7发布后,1.30.1不再支持新建。
Tensorboard:若需要任务可视化时,可开启Tensorboard功能,开启后需要指定“服务类型”与“ 训练日志读取路径”。 K8S标签:指定任务对应的K8S Label。 注释:指定任务对应的Annotation。 点击“完成”按钮,完成任务的新建。
CCE/v1.18+ 2025.08.13 首次发布RapidFS CSI版本 -
的参数说明如下: 参数 类型 必填 说明 graph_def tf.GraphDef 是 待优化的 TensorFlow 静态图。 'gpu' str 是 指定优化目标为 GPU。 outputs list[str] 是 模型输出节点名称列表,不带 :0 后缀。
当可分配 CPU 小于 Pod Request 值时,将无法创建 Pod。 1.增加节点数量。 2.通过工作负载-容器组或使用kubectl获取Pod YAML,找到resources字段,检查 Pod 资源配额(Request、Limit)。 集群可分配内存是否充足 检查节点已分配内存是否 > 80%。 当可分配内存小于 Pod Request 值时,将无法创建 Pod。 1.增加节点数量。
组件功能 容器的特性决定了容器本身是非持久化的,容器被删除,其上的数据也一并删除。存储卷Volume可以解决容器的数据共享和持久化存储问题,PV(PersistentVolume)和PVC(PersistentVolumeClaim)是K8S提供的用于抽象存储细节的API资源。