高性能应用服务 HPAS
更新时间:2026-04-24
高性能应用服务 HPAS 仅包含实例监控(Instance)1种监控对象类型,实例监控包含的监控指标列表如下:
实例监控(Instance)
| 指标英文名称(metric name) | 指标中文名称 | 单位 | 维度 | 备注 |
|---|---|---|---|---|
| CPUUsagePercent | CPU使用率 | % | InstanceId | |
| CpuIdlePercent | CPU空闲率 | % | InstanceId | |
| CpuSystemPercent | 系统CPU时间比率 | % | InstanceId | |
| CpuUserPercent | 用户CPU时间比率 | % | InstanceId | |
| CpuWaitPercent | 等待IOCPU时间比率 | % | InstanceId | 仅Linux |
| CpuContextSwitchSecond | 每秒上下文切换次数 | 次/秒 | InstanceId | |
| CpuInterruptSecond | 每秒CPU的中断次数 | 次/秒 | InstanceId | |
| CpuLoadAvg1 | 最近1分钟服务器负载 | 个 | InstanceId | 仅Linux |
| CpuLoadAvg5 | 最近5分钟服务器负载 | 个 | InstanceId | 仅Linux |
| CpuLoadAvg15 | 最近15分钟服务器负载 | 个 | InstanceId | 仅Linux |
| CpuXIdlePercent | 单核cpu空闲率 | % | InstanceId | 仅windows |
| CpuXProcessorPercent | 单核cpu使用率 | % | InstanceId | 仅windows |
| MemTotalBytes | 内存总量 | Bytes | InstanceId | |
| MemFreeBytes | 内存空闲量 | Bytes | InstanceId | |
| MemAlreadyUsedBytes | 内存已用量 | Bytes | InstanceId | 仅Linux |
| MemUserUsedBytes | 用户实际内存使用量 | Bytes | InstanceId | 仅Linux |
| MemUsedBytes | 内存使用量 | Bytes | InstanceId | |
| MemUsedPercent | 内存使用率 | % | InstanceId | |
| MemAvailableBytes | 内存可用量 | Bytes | InstanceId | 仅windows |
| MemAvailablePercent | 内存可用率 | % | InstanceId | 仅Linux |
| MemCacheBytes | 文件系统内存cache值 | Bytes | InstanceId | |
| MemBufferBytes | 块设备读写内存缓冲量 | Bytes | InstanceId | 仅Linux |
| TcpLossSegs | TCP丢包数 | 个 | InstanceId | 仅Linux |
| TcpOutSegs | TCP发送包数 | 个 | InstanceId | |
| TcpInSegs | TCP接收包数 | 个 | InstanceId | |
| TcpRetranSegs | TCP重传数 | 次 | InstanceId | |
| TcpCurrentEstab | 已建立的TCP连接数 | 个 | InstanceId | |
| HomeUsedBytes | HOME磁盘空间使用量 | Bytes | InstanceId | 仅linux服务器具备 |
| RootUsedBytes | 根磁盘空间使用量 | Bytes | InstanceId | 仅linux服务器具备 |
| HomeUsedPercent | HOME磁盘空间使用率 | % | InstanceId | 仅linux服务器具备 |
| RootUsedPercent | 根磁盘空间使用率 | % | InstanceId | 仅linux服务器具备 |
| ReadOpCount | 每秒磁盘IO读次数 | 次 | InstanceId | |
| WriteOpCount | 每秒磁盘IO写次数 | 次 | InstanceId | |
| ReadBytes | 每秒磁盘IO读量 | Bytes | InstanceId | |
| WriteBytes | 每秒磁盘IO写量 | Bytes | InstanceId | |
| DiskXReadBytesPerSecond | 分磁盘每秒磁盘IO读取量 | Bytes | InstanceId,disk | |
| DiskXWriteBytesPerSecond | 分磁盘每秒磁盘IO写入量 | Bytes | InstanceId,disk | |
| DiskXReadOpCountPerSecond | 分磁盘每秒磁盘IO读取次数 | 次 | InstanceId,disk | |
| DiskXWriteOpCountPerSecond | 分磁盘每秒磁盘IO写入次数 | 次 | InstanceId,disk | |
| DiskXUsedBytes | 单磁盘空间使用量 | Bytes | InstanceId,disk | |
| DiskXUsedPercent | 单磁盘空间使用率 | % | InstanceId,disk | |
| RdmaXmitPps | RDMA网卡输出包速率 | pps | InstanceId,ip | 仅linux |
| RdmaRcvPps | RDMA网卡输入包速率 | pps | InstanceId,ip | 仅linux |
| RdmaRcvBps | RDMA网卡输入带宽 | bps | InstanceId,ip | 仅linux |
| RdmaXmitBps | RDMA网卡输出带宽 | bps | InstanceId,ip | 仅linux |
| RdmaXmitDiscardsPps | RDMA网卡丢弃包速率 | pps | InstanceId,ip | 仅linux |
| RdmaLinkUp | RDMA网卡是否Up | - | InstanceId,ip | 仅linux |
| RdmaSendCNP | RDMA网卡发送CNP数量 | 个/秒 | InstanceId,ip | 仅linux |
| RdmaHandleCNP | RDMA网卡处理CNP数量 | 个/秒 | InstanceId,ip | 仅linux |
| RdmaMarkedECN | RDMA网卡标记ECN数量 | 个/秒 | InstanceId,ip | 仅linux |
| RdmaRcvPFC | RDMA网卡接收PFC数量 | 个/秒 | InstanceId,ip | 仅linux |
| RdmdXmitPFC | RDMA网卡发送PFC数量 | 个/秒 | InstanceId,ip | 仅linux |
| RdmaACKTimeout | RDMA网卡ack超时数量 | 个/秒 | InstanceId,ip | 仅linux |
| RDMAOutOfSequencePacket | RDMA网卡乱序包数量 | 个/秒 | InstanceId,ip | 仅linux |
| RdmaCRCError | RDMA网卡CRC错误数量 | 个/秒 | InstanceId,ip | 仅linux |
| GpuXUtilizationGpu | gpu卡的使用率 | % | InstanceId,gpu | 仅linux |
| GpuXStatus | gpu卡状态 | - | InstanceId,gpu | 仅linux |
| GpuXError | gpu卡错误信息 | - | InstanceId,gpu | 仅linux |
| GpuXUtilizationMemory | gpu卡内存使用率 | % | InstanceId,gpu | 仅linux |
| GpuXMemoryTotal | gpu卡的内存总量 | Bytes | InstanceId,gpu | 仅linux |
| GpuXMemoryFree | gpu卡的内存空闲量 | Bytes | InstanceId,gpu | 仅linux |
| GpuXMemoryUsed | gpu卡的内存使用量 | Bytes | InstanceId,gpu | 仅linux |
| GpuXTemperature | gpu卡的温度 | 度 | InstanceId,gpu | 仅linux |
| GpuXEccErrors | gpu卡的ECC错误数 | 个 | InstanceId,gpu | 仅linux |
| DCGM_GPU_TEMP | GPU运行的温度 | ℃ | InstanceId,gpu | 仅linux |
| DCGM_MEM_TEMP | GPU的内存温度 | ℃ | InstanceId,gpu | 仅linux |
| DCGM_FAN_SPEED_PERCENT | GPU风扇转速占比 | % | InstanceId,gpu | 仅linux |
| DCGM_POWER_USAGE | GPU的功率 | W | InstanceId,gpu | 仅linux |
| DCGM_GPU_PERF | GPU性能状态值 | - | InstanceId,gpu | 仅linux |
| DCGM_FI_DEV_TOTAL_ENERGY_CONSUMPTION | GPU自启动以来的总能耗 | J | InstanceId,gpu | 仅linux |
| DCGM_GPU_UTILIZATION | GPU利用率 | % | InstanceId,gpu | 仅linux |
| DCGM_ENC_UTILIZATION | GPU编码器利用率 | % | InstanceId,gpu | 仅linux |
| DCGM_DEC_UTILIZATION | GPU解码器利用率 | % | InstanceId,gpu | 仅linux |
| DCGM_MEM_COPY_UTILIZATION | GPU的内存拷贝利用率 | % | InstanceId,gpu | 仅linux |
| DCGM_FB_FREE | GPU帧缓存剩余 | MiB | InstanceId,gpu | 仅linux |
| DCGM_FB_USED | GPU帧缓存使用 | MiB | InstanceId,gpu | 仅linux |
| DCGM_PROF_GR_ENGINE_ACTIVE | GPU Graphics或Compute引擎激活时间占比 | % | InstanceId,gpu | 仅linux |
| DCGM_PROF_SM_ACTIVE | GPU SM激活的时间占比 | % | InstanceId,gpu | 仅linux |
| DCGM_PROF_SM_OCCUPANCY | GPU驻留在SM上的线程数占比 | % | InstanceId,gpu | 仅linux |
| DCGM_PROF_PIPE_TENSOR_ACTIVE | GPU Tensor Pipe处于激活的周期分数 | % | InstanceId,gpu | 仅linux |
| DCGM_PROF_PIPE_FP64_ACTIVE | GPU FP64管道处于激活的周期分数 | % | InstanceId,gpu | 仅linux |
| DCGM_PROF_PIPE_FP32_ACTIVE | GPU FP32管道处于激活的周期分数 | % | InstanceId,gpu | 仅linux |
| DCGM_PIPE_FP16_ACTIVE | GPU FP16管道处于激活的周期分数 | % | InstanceId,gpu | 仅linux |
| DCGM_PROF_DRAM_ACTIVE | GPU内存带宽利用率 | % | InstanceId,gpu | 仅linux |
| PROF_NVLINK_TX_BYTES | NVLink传输的数据速率 | Bytes | InstanceId,gpu | 仅linux |
| PROF_NVLINK_RX_BYTES | NVLink接收的数据速率 | Bytes | InstanceId,gpu | 仅linux |
| DCGM_FI_DEV_NVLINK_CRC_FLIT_ERROR_COUNT_TOTAL | NVLink流控制CRC错误总数 | 个 | InstanceId,gpu | 仅linux |
| DCGM_FI_DEV_NVLINK_CRC_DATA_ERROR_COUNT_TOTAL | NVLink数据CRC错误总数 | 个 | InstanceId,gpu | 仅linux |
| DCGM_FI_DEV_NVLINK_REPLAY_ERROR_COUNT_TOTAL | NVLink重试总数 | 个 | InstanceId,gpu | 仅linux |
| DCGM_FI_DEV_NVLINK_RECOVERY_ERROR_COUNT_TOTAL | NVLink恢复错误总数 | 个 | InstanceId,gpu | 仅linux |
| DCGM_FI_DEV_NVLINK_BANDWIDTH_TOTAL | NVLink带宽计数器总数 | 个 | InstanceId,gpu | 仅linux |
| PROF_PCIE_TX_BYTES | GPU PCIe总线传输的数据速率 | Bytes | InstanceId,gpu | 仅linux |
| PROF_PCIE_RX_BYTES | GPU PCIe总线接收的数据速率 | Bytes | InstanceId,gpu | 仅linux |
| DCGM_PCIE_REPLAY_COUNTER | GPU PCIe重试的总数 | - | InstanceId,gpu | 仅linux |
| DCGM_SM_CLOCK | GPU sm时钟频率 | HZ | InstanceId,gpu | 仅linux |
| DCGM_MEMORY_CLOCK | GPU内存时钟频率 | HZ | InstanceId,gpu | 仅linux |
| DCGM_APP_SM_CLOCK | GPU SM应用时钟频率 | HZ | InstanceId,gpu | 仅linux |
| DCGM_APP_MEMORY_CLOCK | GPU内存应用时钟频率 | HZ | InstanceId,gpu | 仅linux |
| DCGM_CLOCK_THROTTLE_REASONS | GPU时钟慢下来的原因 | - | InstanceId,gpu | 仅linux |
| DCGM_ECC_SBE_VOL_TOTAL | GPU单位易失性ECC错误总数 | 个 | InstanceId,gpu | 仅linux |
| DCGM_ECC_DBE_VOL_TOTAL | GPU双位易失性ECC错误总数 | 个 | InstanceId,gpu | 仅linux |
| DCGM_ECC_SBE_AGG_TOTAL | GPU单位持久性ECC错误的总数 | 个 | InstanceId,gpu | 仅linux |
| DCGM_ECC_DBE_AGG_TOTAL | GPU双位持久性ECC错误的总数 | 个 | InstanceId,gpu | 仅linux |
评价此篇文章
