接入监控实例并启用采集任务
更新时间:2024-11-21
操作步骤
- 登录百舸异构计算平台AIHC控制台。
- 在左侧导航栏资源池中选择您想要查看监控大盘的资源池名称,并点击右侧操作中的资源观测。
- 若您所选资源池未关联过监控实例,点击后会提示您未关联监控实例,点击确定,跳转至资源池详情。
- 在资源池详情中点击资源信息中关联监控实例(CPROM):快速接入。
- 选择新建实例后,点击确定。
- 接入成功后在资源池详情页面下方点击关联监控实例(CPROM),跳转至Prometheus监控服务。
- 在左侧导航栏中点击采集配置后,右侧选择目标集群,在下方采集配置列表中找到所需要的任务名称,在右侧操作中点击启用。任务状态由禁用转为启用。
各大盘需启用的采集任务
大盘名称 |
采集任务 | |||||
---|---|---|---|---|---|---|
volcano | kubelet | gpu-dcgm | kubernetes-pods | cadvisor | kubernetes-pods-kube-state-metrics | |
资源统计 | √ | √ | √ | √ | √ | √ |
节点资源 | √ | √ | √ | √ | √ | √ |
工作负载 | √ | √ | √ | √ | √ | √ |
调度器组件稳定性 | √ | √ | √ | √ | √ | √ |
GPUManager稳定性 | — | — | — | — | — | √ |