智算网络平台 AICP
更新时间:2026-03-18
智算网络平台 AICP 仅包含实例监控(Instance)1种监控对象类型,实例监控包含的监控指标列表如下:
实例监控(Instance)
| 指标英文名称(metric name) | 指标中文名称 | 单位 | 维度 | 备注 |
|---|---|---|---|---|
| CPUUsagePercent | CPU使用率 | % | 无 | |
| CPUUsagePercent | CPU使用率 | % | 实例 | 仅Linux |
| CpuIdlePercent | CPU空闲率 | % | 无 | |
| CpuSystemPercent | 系统CPU时间比率 | % | 无 | |
| CpuUserPercent | 用户CPU时间比率 | % | 无 | |
| CpuWaitPercent | 等待IOCPU时间比率 | % | 无 | 仅Linux |
| CpuContextSwitchSecond | 每秒上下文切换次数 | 次/秒 | 无 | |
| CpuInterruptSecond | 每秒CPU的中断次数 | 次/秒 | 无 | |
| CpuLoadAvg1 | 最近1分钟服务器负载 | 个 | 无 | 仅Linux |
| CpuLoadAvg5 | 最近5分钟服务器负载 | 个 | 无 | 仅Linux |
| CpuLoadAvg15 | 最近15分钟服务器负载 | 个 | 无 | 仅Linux |
| Cpu0IdlePercent | 单核cpu空闲率 | % | 核: CPU{序号} | 仅windows,序号从0开始 |
| Cpu0ProcessorPercent | 单核cpu使用率 | % | 核: CPU{序号} | 仅windows,序号从0开始 |
| MemTotalBytes | 内存总量 | Bytes | 无 | |
| MemFreeBytes | 内存空闲量 | Bytes | 无 | |
| MemAlreadyUsedBytes | 内存已用量 | Bytes | 实例 | 仅Linux |
| MemUserUsedBytes | 用户实际内存使用量 | Bytes | 实例 | 仅Linux |
| MemUsedBytes | 内存使用量 | Bytes | 无 | |
| MemUsedPercent | 内存使用率 | % | 无 | |
| MemAvailableBytes | 内存可用量 | Bytes | 实例 | 仅windows |
| MemAvailablePercent | 内存可用率 | % | 实例 | 仅Linux |
| MemCacheBytes | 文件系统内存cache值 | Bytes | 无 | |
| MemBufferBytes | 块设备读写内存缓冲量 | Bytes | 无 | 仅Linux |
| 必填 | TCP丢包数 | 个 | 无 | 仅Linux |
| TcpOutSegs | TCP发送包数 | 个 | 无 | |
| TcpInSegs | TCP接收包数 | 个 | 无 | |
| TcpRetranSegs | TCP重传数 | 次 | 无 | 仅windows |
| TcpCurrentEstab | 已建立的TCP连接数 | 个 | 无 | |
| SwapTotalBytes | 交换分区总量 | Bytes | 无 | 仅Linux |
| SwapUsedBytes | 交换分区使用量 | Bytes | 无 | 仅Linux |
| SwapFreeBytes | 交换分区空闲量 | Bytes | 无 | 仅Linux |
| VNlcInBytes | 网卡输入流量 | Bytes | 无 | |
| VNlcOutBytes | 网卡输出流量 | Bytes | 无 | |
| VNlcInPPS | 网卡输入包速率 | pps | 无 | |
| VNlcOutPPS | 网卡输出包速率 | pps | 无 | |
| VNlcInBPS | 网卡输入带宽 | bps | 无 | |
| VNlcOutBPS | 网卡输出带宽 | bps | 无 | |
| WebInBytes | 主IP从外网进入的流量 | Bytes | 无 | |
| WebOutBytes | 主IP流向外网的流量 | Bytes | 无 | |
| WebInBitsPerSecond | 主IP从外网进入的带宽 | bps | 无 | |
| WebOutBitsPerSecond | 主IP流向外网的带宽 | bps | 无 | |
| WebInPPS | 主IP从外网进入的包速率 | pps | 无 | |
| WebOutPPS | 主IP流向外网的包速率 | pps | 无 | |
| Disk[X]UsedByte | 磁盘空间使用量 | Bytes | 磁盘盘符:Disk(盘符) | 仅windows,盘符从"C"开始 |
| Disk[X]UsedPercent | 磁盘空间使用率 | % | 磁盘盘符: Disk[盘符] | 盘符从"C"开始 |
| DiskXUsedBytes | 单磁盘空间使用量 | Bytes | disk | |
| DiskXUsedPercent | 单磁盘空间使用率 | % | disk | |
| RdmaXmitPps | RDMA网卡输出包速率 | pps | ip | |
| RdmaRcvPps | RDMA网卡输入包速率 | pps | ip | |
| RdmaRcvBps | RDMA网卡输出带宽 | bps | ip | |
| RdmaXmitBps | RDMA网卡输入带宽 | bps | ip | |
| RdmaXmitDiscardsPps | RDMA网卡丢弃包速率 | pps | ip | |
| RdmaLinkUp | RDMA网卡是否Up | ip | ||
| GpuXUtilizationGpu | gpu卡的使用率 | gpu | ||
| GpuXStatus | gpu卡状态 | gpu | ||
| GpuXError | gpu卡错误信息 | gpu | ||
| GpuXUtilizationMemory | gpu卡内存使用率 | gpu | ||
| GpuXMemoryTotal | gpu卡的内存总量 | gpu | ||
| GpuXMemoryFree | gpu卡的内存空闲量 | gpu | ||
| GpuXMemoryUsed | gpu卡的内存使用量 | gpu | ||
| GpuXTemperature | gpu卡的温度 | gpu | ||
| GpuXEccErrors | gpu卡的ECC错误数 | gpu | ||
| DCGM_GPU_TEMP | GPU运行的温度 | gpu | ||
| DCGM_MEM_TEMP | GPU的内存温度 | gpu | ||
| DCGM_FAN_SPEED_PERCENT | GPU风扇转速占比 | gpu | ||
| DCGM_POWER_USAGE | GPU的功率 | gpu | ||
| DCGM_GPU_PERF | GPU性能状态值 | gpu | ||
| DCGM_FI_DEV_TOTAL_ENERGY_CONSUMPTION | GPU自启动以来的总能耗 | gpu | ||
| DCGM_GPUUTILIZATION | GPU利用率 | gpu | ||
| DCGM_ENCUTILIZATION | GPU编码器利用率 | gpu | ||
| DCGM_DECUTILIZATION | GPU解码器利用率 | gpu | ||
| DCGM_MEM_COPY_UTILIZATION | GPU的内存拷贝利用率 | % | gpu | 仅linux |
| DCGM_FB_FREE | GPU 帧缓存剩余 | MiB | gpu | 仅linux |
| DCGM_FB_USED | GPU 帧缓存使用 | MiB | gpu | 仅linux |
| DCGM_PROF_GR_ENGINE_A | GPU Graphics或Compute引 | % | gpu | 仅linux |
| DCGM_PROF_SM_ACTIVE | GPU SM激活的时间占比 | % | gpu | 仅linux |
| DCGM_PROF_SM_OCCUPAN | GPU 留在SM上的线程数占比 | % | gpu | 仅linux |
| DCGM_PROF_PIPE_TENSOR | GPU Tensor Pipe处于激活的周期分数 | % | gpu | 仅linux |
| DCGM_PROF_PIPE_64_AC | GPU FP64管道处于激活的周期分数 | % | gpu | 仅linux |
| DCGM_PROF_PIPE_32_AC | GPU FP32管道处于激活的周期分数 | % | gpu | 仅linux |
| DCGM_PIPE_64_ACTIVE | GPU FP16管道处于激活的周期分数 | % | gpu | 仅linux |
| DCGM_PROF_DRAM_ACTIVE | GPU 内存带宽利用率 | % | gpu | 仅linux |
| PROF_NVLINK_TX_BYTES | NVLink传输的数据速率 | Bytes | gpu | 仅linux |
| PROF_NVLINK_RX_BYTES | NVLink接收的数据速率 | Bytes | gpu | 仅linux |
| DCGM_FI_DEV_NVLINK_CRC | NVLink流控制 CRC 错误总数 | 个 | gpu | 仅linux |
| DCGM_FI_DEV_NVLINK_REPLAY_ERROR_COUNT_TOTAL | NVLink重试总数 | 仅linux | ||
| DCGM_FI_DEV_NVLINK_REC | NVLink恢复错误总数 | 仅linux | ||
| DCGM_FI_DEV_NVLINK_BAN | NVLink 带宽计数器总数 | 仅linux | ||
| PROF_CPIE_TX_BYTES | GPU PCIe总线传输的数据速率 | Bytes | gpu | 仅linux |
| PROF_PCIE_RX_BYTES | GPU PCle总线接收的数据速率 | Bytes | gpu | 仅Linux |
| DCGM_PCIE_REPLAY_COUNT | GPU PCle重试的总数 | - | gpu | 仅Linux |
| DCGM_SM_CLOCK | GPU sm时钟频率 | HZ | gpu | 仅Linux |
| DCGM_MEMORY_CLOCK | GPU 内存时钟频率 | HZ | gpu | 仅Linux |
| DCGM_APP_SM_CLOCK | GPU SM应用时钟频率 | HZ | gpu | 仅Linux |
| DCGM_APP_MEMORY_CLOCK | GPU 内存应用时钟频率 | HZ | gpu | 仅Linux |
| DCGM_CLOCK_THROTTLE_REASONS | GPU 时钟慢下来的原因 | - | gpu | 仅Linux |
| DCGM_ECC_SBE_VOL_TOTAL | GPU 单位易失性 ECC 错误总数 | 个 | gpu | 仅Linux |
| DCGM_ECC_DBE_VOL_TOTAL | GPU 双位易失性 ECC 错误总数 | 个 | gpu | 仅Linux |
| DCGM_ECC_SBE_AGG_TOTAL | GPU 单位持久性 ECC 错误的总数 | 个 | gpu | 仅Linux |
| DCGM_ECC_DBE_AGG_TOTAL | GPU 双位持久性 ECC 错误的总数 | 个 | gpu | 仅Linux |
| DCGM_XID_ERRORS | GPU发生的XID错误号 | - | gpu | 仅Linux |
评价此篇文章
