套餐适配相关接口 套餐适配相关接口 获取套餐列表 获取 cce 保存的套餐列表,及适配状态。 请求结构 POST /api/cce/artifact-service/v1/machine-specs Host: cce.bj.baidubce.com Authorization: authorization string 请求头域 除公共头域外,无其它特殊头域。 请求参数 参数名称 类型 是否必须
DNS 问题排查指南 本文档介绍 DNS 相关的常见问题和错误,以及对应的排查和解决方案。 DNS 问题排查流程 排查流程 当发生 DNS 解析失败时,可按照如下流程进行排查 首先,我们可以根据解析失败报错,判断问题类型,判断方法参见 客户端常见报错分类 如果是因为网络不连通,参见 问题排查思路 的 按解析异常的域名类型排查 如果是因为域名解析失败,参见 问题排查思路 的 按解析异常出现频次排查
CCE-访问公网实践 概述 在一些场景中,用户需要让CCE集群中的节点和Pod具备访问公网的能力,如通过yum install等命令访问外部源地址下载安装软件、容器需要访问公网中的某些服务等等。 我们提供了以下两种方案,可以实现集群访问公网,用户可以根据具体需求自行选择。 相关概念 EIP:EIP是百度智能云提供的弹性公网IP服务,EIP可以挂载到CCE节点、BLB、NAT网关等服务,提供可以访问
公共头和错误返回 公共头规格 公共请求头 公共头部 描述 Authorization 包含 Access Key 与请求签名 Content-Type application/json; charset=utf-8 x-bce-date 表示日期的字符串,符合 API 规范 HTTP 协议的标准头域不再这里列出。公共头域将在每个 API 中出现,是必需的头域。POST、PUT、DELETE 等请求
MPS 最佳实践&注意事项 GPU Manager 选择性能最优型时,会使用 Nvidia MPS进行算力隔离,MPS 只具备有限的容错能力,请仔细阅读以下内容以确保您对MPS有基本了解。 MPS使用最佳实践 适合MPS的使用场景: MPS仅推荐用于运行单个应用程序的协作进程,例如相同MPI作业的多个ranks,以便内存保护和容错方案可用。 当每个应用程序进程没有产生足够的工作负载使GPU饱和时,
CCE混部监控开启Cprom 概况 Prometheus监控服务,是针对云原生场景提供的全托管、高可用、可扩展的Prometheus监控服务。完全对接开源Prometheus生态,支持多维度指标数据采集,支持灵活查询语句PromQL,基于Grafana提供开箱即用的监控Dashboard,集成多种告警通知渠道。 本文档将指导您如何打通CCE混部节点监控与Cprom。 前提条件 已成功 创建集群 。
视图命令行场景示例 一般的问题定位流程可以分为五个阶段: 问题发现 => 数据导出 => 关键错误提取 => 视图分析 => 问题处理 场景1:资源超配额 问题发现 :pytorchjob 没有进入running状态,对应的pod长时间pending % kubectl get pytorchjob NAME STATE AGE pytorchjob-bert-2-bert Created 58m
GPU独占和共享说明 若集群支持 GPU 算力和显存的共享与隔离,您可以在新建任务或工作负载的时候,通过控制台操作或根据提交的 YAML 来决定独占还是共享 GPU 资源。 前提条件 您已成功安装CCE GPU Manager 和 CCE AI Job Scheduler 组件。您可在“集群>组件管理>云原生AI”中安装。 节点已开启显存共享,您可在“集群>节点管理>Worker>显存共享配置”中
通过YAML创建LoadBalancer_Service 本文档会详细介绍如何在CCE下创建类型是LoadBalancer的Service。 注意 1:以下Annotation对1.16.3以下版本集群可能不生效,辛苦工单联系管理员处理 注意 2:一个LoadBalancer Service只能使用一个BLB,一个BLB也只能被一个LoadBalancer Service使用,不建议复用 BLB
CCE节点资源预留说明 在 CCE 集群中,节点初始化时需要运行一些必要的系统组件和Kubernetes组件,使该节点能够成功纳入该集群并正常提供服务,因此需要为这些组件预留一部分系统资源,您会看到节点资源总量与节点在Kubernetes中的可分配资源之间会存在差异。节点的规格越大,在节点上部署的容器可能会越多,需要需预留的资源可能越多。 为了保证节点的稳定性,CCE集群节点上会根据机器规格预留一