云高性能计算平台CHPC
云高性能计算平台 CHPC包含资源监控(Resource)、队列监控(Queue)、作业监控(Job)3种监控对象类型,各监控对象类型包含的监控指标列表如下:
资源监控(Resource)
| 指标英文名称(metric name) |
指标中文名称 |
单位 |
维度 |
备注 |
| ClusterCpuUsed |
集群使用的 CPU 资源 |
核 |
ClusterId |
|
| ClusterCpuTotal |
集群CPU 资源总数 |
核 |
ClusterId |
|
| ClusterCpuIdle |
集群空闲的 CPU 资源 |
核 |
ClusterId |
|
| ClusterCpuUsage |
集群 CPU 利用率 |
% |
ClusterId |
|
| ClusterNodeOnline |
集群在线节点数 |
台 |
ClusterId |
|
| ClusterNodeOffline |
集群不在线节点数 |
台 |
ClusterId |
|
| ClusterNodeTotal |
集群总节点数 |
台 |
ClusterId |
|
| ClusterNodeOnlineRatio |
集群节点在线率 |
% |
ClusterId |
|
队列监控(Queue)
| 指标英文名称(metric name) |
指标中文名称 |
单位 |
维度 |
备注 |
| QueueCpuUsed |
队列使用的 CPU 资源 |
核 |
ClusterId,Queue,User |
|
| QueueCpuTotal |
队列 CPU 资源总数 |
核 |
ClusterId,Queue |
|
| QueueCpuIdle |
队列空闲CPU 资源 |
核 |
ClusterId,Queue |
|
| QueueCpuUsage |
队列 CPU 利用率 |
% |
ClusterId,Queue |
|
| QueueAlarmCpuUsage |
队列报警 CPU 利用率 |
% |
ClusterId,Queue |
|
| QueueAlarmJobQueuedCpuRatio |
队列报警排队作业CPU比例 |
% |
ClusterId,Queue |
|
作业监控(Job)
| 指标英文名称(metric name) |
指标中文名称 |
单位 |
维度 |
备注 |
| JobCompletedNum |
队列中已完成作业数 |
个 |
ClusterId,Queue |
|
| Completed Job Num In Queue |
队列中已完成作业数 |
个 |
ClusterId,Queue,User |
|
| Submitted Job Num In Queue |
队列中提交作业数 |
个 |
ClusterId,Queue,User |
|
| Queued Job Num In Queue |
队列中排队作业数 |
个 |
ClusterId,Queue,User |
|
| Queued Job Num In Queue of Insufficient Node |
队列中节点不足导致的排队作业数 |
个 |
ClusterId,Queue,User |
|
| Running Job Num In Queue |
队列中运行作业数 |
个 |
ClusterId,Queue,User |
|
| Failed Job Num In Queue |
队列中失败作业数 |
个 |
ClusterId,Queue,User |
|
| Suspended Job Num In Queue |
队列中暂停作业数 |
个 |
ClusterId,Queue,User |
|
| Running Job Cpu Used |
队列中运行作业 CPU 资源 |
核 |
ClusterId,Queue,User |
|
| Running Job Cpu Used By Job Attribute |
队列中运行作业 CPU 资源(以作业属性区分) |
核 |
ClusterId,Queue,User,Software |
|
| Queued Job Cpu Used |
队列中排队作业 CPU 资源 |
核 |
ClusterId,Queue,User |
|
| Queued Job Cpu Used of Insufficient Node |
队列中节点不足导致排队作业 CPU 资源 |
核 |
ClusterId,Queue,User |
|
| Job Cpu Total |
队列中作业资源总量 |
核 |
ClusterId,Queue,User |
|
| Job Cpu Usage |
队列中作业 CPU 资源利用率 |
% |
ClusterId,Queue,User |
|
| Job Queued Cpu Ratio |
队列中排队作业 CPU 比例 |
% |
ClusterId,Queue,User |
|
| Job Waiting Time to Start |
作业平均等待时长 |
秒 |
ClusterId,Queue,User |
|
![]()