GPUManager组件
更新时间:2024-01-18
GPUManager稳定性,包含GPUManager组件异常pod 数量、GPUManager组件重启次数,以及GPUManager相关组件的cpu利用率和men使用量。
前提条件
- 已接入监控实例
- 需启用采集任务,具体参考文档:接入监控实例并启用采集任务
使用方法
- 登录百舸异构计算平台AIHC控制台。
- 在左侧导航栏资源池中选择您想要查看监控大盘的资源池名称,并点击右侧操作中的监控大盘。
- 跳转至监控大盘页面,选择GPUManager稳定性。
GPUManager稳定性如图所示:
您可以点击右上角按钮,自行设定监控时间、手动刷新、自动刷新。
GPUManager稳定性具体说明
监控项 | 说明 |
---|---|
GPUManager组件异常pod数量 | 当前集群GPUManager相关组件有异常的Pod数量。 指标异常:异常Pod数量大于0则为异常,需要查看异常原因。 |
GPUManager组件重启次数 | 当前集群GPUManager相关组件的重启次数。 指标异常:重启次数5分钟检查一次,连续三次增量大于1则为异常。 |
各组件cpu利用率 | 当前集群GPUManager相关各组件工作负载的Pod容器cpu利用率。 |
各组件men用量 | 当前集群GPUManager相关各组件工作负载的Pod容器内存使用量。 |
GPUManager组件CPU利用率 | 当前集群GPUManager相关各组件的CPU利用率 |
GPUManager组件Memory使用量 | 当前集群GPUManager相关各组件的Memory使用量 |