接入监控实例并开启采集任务
更新时间:2024-06-20
若您需要使用云原生AI资源观测功能,需进行以下步骤,分别为您的集群接入监控实例并开启采集任务。
操作步骤
- 登录容器引擎CCE控制台。
- 点击左侧集群管理,在集群列表中选择您需要的集群名称,在右侧操作>更多中点击Prometheus监控,即可跳转至Prometheus监控服务。
- 接入监控实例:检查当前集群是否被CProm实例关联。
- 关联:则进入下一步
- 未关联:显示未关联状态,显示“接入实例”操作
检查监控状态:检查CProm实例是能正常监控集群以及数据能够正常采集及展示。
- 监控状态异常:显示异常状态及信息
- 监控状态正常:切换到预置监控面板页面
接入CProm监控:单击“确定”按钮系统需要前置校验CProm产品客户是否开通以及当前用户是否有相应操作权限,若不满足则不执行接入流程,并提示报错信息。
- 接入成功后,在Prometheus监控页面右侧点击跳转到Promethrus监控服务
- 选择您的实例,点击实例名称
- 在左侧导航栏中选择采集配置,并在右侧选择目标集群,在下方采集配置列表中找到所需要的任务名称,在右侧操作中点击启用。任务状态由禁用转为启用。
GPU/NPU大盘需开启的采集任务
Nvidia GPU芯片采集项
大盘名称 |
采集任务 | |||||
---|---|---|---|---|---|---|
volcano | kubelet | gpu-dcgm | kubernetes-pods | cadvisor | kubernetes-pods-kube-state-metrics | |
GPU资源池总览 | √ | √ | √ | √ | √ | √ |
GPU节点资源 | √ | √ | √ | √ | √ | √ |
GPU工作负载资源 | √ | √ | √ | √ | √ | √ |
AI Job Scheduler组件 | √ | √ | √ | √ | √ | √ |
GPUManager组件 | — | — | — | — | — | √ |
昇腾 AscendNPU芯片采集项
大盘名称 | 采集任务 | |||
---|---|---|---|---|
npu-exporter | kubelet | cadvisor | kubernetes-pods-kube-state-metrics | |
昇腾资源池总览 | √ | √ | √ | √ |
昇腾节点资源 | √ | √ | √ | √ |
昇腾工作负载资源 | √ | √ | √ | √ |