云高性能计算平台CHPC
更新时间:2026-03-19
云高性能计算平台 CHPC包含集群监控(Cluster)、队列监控(Queue)、作业监控(Job)3种监控对象类型,各监控对象类型包含的监控指标列表如下:
集群监控(Cluster)
| 指标英文名称(metric name) | 指标中文名称 | 单位 | 维度 | 备注 |
|---|---|---|---|---|
| ClusterCpuUsed | 集群使用的 CPU 资源 | 核 | ClusterId | |
| ClusterCpuTotal | 集群CPU 资源总数 | 核 | ClusterId | |
| ClusterCpuIdle | 集群空闲的 CPU 资源 | 核 | ClusterId | |
| ClusterCpuUsage | 集群 CPU 利用率 | % | ClusterId | |
| ClusterNodeOnline | 集群在线节点数 | 台 | ClusterId | |
| ClusterNodeOffline | 集群不在线节点数 | 台 | ClusterId | |
| ClusterNodeTotal | 集群总节点数 | 台 | ClusterId | |
| ClusterNodeOnlineRatio | 集群节点在线率 | % | ClusterId |
队列监控(Queue)
| 指标英文名称(metric name) | 指标中文名称 | 单位 | 维度 | 备注 |
|---|---|---|---|---|
| QueueCpuUsed | 队列使用的 CPU 资源 | 核 | ClusterId,Queue,User | |
| QueueCpuTotal | 队列 CPU 资源总数 | 核 | ClusterId,Queue | |
| QueueCpuIdle | 队列空闲CPU 资源 | 核 | ClusterId,Queue | |
| QueueCpuUsage | 队列 CPU 利用率 | % | ClusterId,Queue | |
| QueueAlarmCpuUsage | 队列报警 CPU 利用率 | % | ClusterId,Queue | |
| QueueAlarmJobQueuedCpuRatio | 队列报警排队作业CPU比例 | % | ClusterId,Queue |
作业监控(Job)
| 指标英文名称(metric name) | 指标中文名称 | 单位 | 维度 | 备注 |
|---|---|---|---|---|
| JobCompletedNum | 队列中已完成作业数 | 个 | ClusterId,Queue | |
| Completed Job Num In Queue | 队列中已完成作业数 | 个 | ClusterId,Queue,User | |
| Submitted Job Num In Queue | 队列中提交作业数 | 个 | ClusterId,Queue,User | |
| Queued Job Num In Queue | 队列中排队作业数 | 个 | ClusterId,Queue,User | |
| Queued Job Num In Queue of Insufficient Node | 队列中节点不足导致的排队作业数 | 个 | ClusterId,Queue,User | |
| Running Job Num In Queue | 队列中运行作业数 | 个 | ClusterId,Queue,User | |
| Failed Job Num In Queue | 队列中失败作业数 | 个 | ClusterId,Queue,User | |
| Suspended Job Num In Queue | 队列中暂停作业数 | 个 | ClusterId,Queue,User | |
| Running Job Cpu Used | 队列中运行作业 CPU 资源 | 核 | ClusterId,Queue,User | |
| Running Job Cpu Used By Job Attribute | 队列中运行作业 CPU 资源(以作业属性区分) | 核 | ClusterId,Queue,User,Software | |
| Queued Job Cpu Used | 队列中排队作业 CPU 资源 | 核 | ClusterId,Queue,User | |
| Queued Job Cpu Used of Insufficient Node | 队列中节点不足导致排队作业 CPU 资源 | 核 | ClusterId,Queue,User | |
| Job Cpu Total | 队列中作业资源总量 | 核 | ClusterId,Queue,User | |
| Job Cpu Usage | 队列中作业 CPU 资源利用率 | % | ClusterId,Queue,User | |
| Job Queued Cpu Ratio | 队列中排队作业 CPU 比例 | % | ClusterId,Queue,User | |
| Job Waiting Time to Start | 作业平均等待时长 | 秒 | ClusterId,Queue,User |
评价此篇文章
