边缘计算节点 BEC
更新时间:2024-04-16
边缘计算节点 BEC 只包含实例监控(Instance)1种监控对象类型,实例监控包含的监控指标列表如下:
实例监控(Instance)
| 指标英文名称(metric name) | 指标中文名称 | 单位 | 维度 | 备注 |
|---|---|---|---|---|
| vCPUUsagePercent | CPU使用率 | % | InstanceId | |
| CpuIdlePercent | CPU空闲率 | % | InstanceId | |
| DiskCUsedBytes | C盘使用的空间 | Bytes | InstanceId | |
| DiskCTotalBytes | C盘总空间 | Bytes | InstanceId | |
| DiskCFreeBytes | C盘空闲空间 | Bytes | InstanceId | |
| DiskCUsedPercent | C盘空间使用率 | % | InstanceId | |
| DCGM_PIPE_FP16_ACTIVE | GPU FP16管道处于激活的周期分数 | % | InstanceId | |
| DCGM_PROF_PIPE_FP32_ACTIVE | GPU FP32管道处于激活的周期分数 | % | InstanceId | |
| DCGM_PROF_PIPE_FP64_ACTIVE | GPU FP64管道处于激活的周期分数 | % | InstanceId | |
| DCGM_PROF_GR_ENGINE_ACTIVE | GPU Graphics或Compute引擎激活时间占比 | % | InstanceId | |
| PROF_PCIE_TX_BYTES | GPU PCIe总线传输的数据速率 | Bytes | InstanceId | |
| PROF_PCIE_RX_BYTES | GPU PCIe总线接收的数据速率 | Bytes | InstanceId | |
| DCGM_SM_CLOCK | GPU sm 时钟频率 | HZ | InstanceId | |
| DCGM_APP_SM_CLOCK | GPU SM应用时钟频率 | HZ | InstanceId | |
| DCGM_PROF_SM_ACTIVE | GPU SM激活的时间占比 | % | InstanceId | |
| DCGM_PROF_PIPE_TENSOR_ACTIVE | GPU Tensor Pipe处于激活的周期分数 | % | InstanceId | |
| DCGM_PROF_DRAM_ACTIVE | GPU 内存带宽利用率 | % | InstanceId | |
| DCGM_APP_MEMORY_CLOCK | GPU 内存应用时钟频率 | HZ | InstanceId | |
| DCGM_MEMORY_CLOCK | GPU 内存时钟频率 | HZ | InstanceId | |
| DCGM_GPU_UTILIZATION | GPU 利用率 | % | InstanceId | |
| DCGM_ECC_SBE_AGG_TOTAL | GPU 单位持久性 ECC 错误的总数 | 个 | InstanceId | |
| DCGM_ECC_SBE_VOL_TOTAL | GPU 单位易失性 ECC 错误总数 | 个 | InstanceId | |
| DCGM_ECC_DBE_AGG_TOTAL | GPU 双位持久性 ECC 错误的总数 | 个 | InstanceId | |
| DCGM_ECC_DBE_VOL_TOTAL | GPU 双位易失性 ECC 错误总数 | 个 | InstanceId | |
| DCGM_FB_USED | GPU 帧缓存使用 | MiB | InstanceId | |
| DCGM_FB_FREE | GPU 帧缓存剩余 | MiB | InstanceId | |
| DCGM_POWER_USAGE | GPU 的功率 | W | InstanceId | |
| DCGM_ENC_UTILIZATION | GPU 编码器利用率 | % | InstanceId | |
| DCGM_DEC_UTILIZATION | GPU 解码器利用率 | % | InstanceId | |
| DCGM_GPU_TEMP | GPU 运行的温度 | ℃ | InstanceId | |
| DCGM_FAN_SPEED_PERCENT | GPU 风扇转速占比 | % | InstanceId | |
| DCGM_PROF_SM_OCCUPANCY | GPU 驻留在SM上的线程数占比 | % | InstanceId | |
| Gpu0UtilizationGpu | gpu使用率 | % | InstanceId | |
| GpuStatus | gpu卡整体状态 | InstanceId | ||
| GpuXStatus | gpu卡状态 | InstanceId | ||
| GpuXEccErrors | gpu卡的ECC错误数 | 个 | InstanceId | |
| GpuXError | gpu卡错误信息 | InstanceId | ||
| GpuError | gpu卡错误信息 | InstanceId | ||
| DCGM_GPU_PERF | GPU性能状态值 | - | InstanceId | |
| DCGM_MEM_COPY_UTILIZATION | GPU的内存拷贝利用率 | % | InstanceId | |
| DCGM_MEM_TEMP | GPU的内存温度 | ℃ | InstanceId | |
| Gpu0Temperature | gpu的温度 | ℃ | InstanceId | |
| DCGM_FI_DEV_TOTAL_ENERGY_CONSUMPTION | GPU自启动以来的总能耗 | J | InstanceId | |
| HomeUsedPercent | HOME磁盘空间使用率 | % | InstanceId | |
| HomeUsedBytes | HOME磁盘空间使用量 | Bytes | InstanceId | |
| DCGM_FI_DEV_NVLINK_BANDWIDTH_TOTAL | NVLink 带宽计数器总数 | 个 | InstanceId | |
| PROF_NVLINK_TX_BYTES | NVLink传输的数据速率 | Bytes | InstanceId | |
| DCGM_FI_DEV_NVLINK_RECOVERY_ERROR_COUNT_TOTAL | NVLink恢复错误总数 | 个 | InstanceId | |
| PROF_NVLINK_RX_BYTES | NVLink接收的数据速率 | Bytes | InstanceId | |
| DCGM_FI_DEV_NVLINK_CRC_DATA_ERROR_COUNT_TOTAL | NVLink数据 CRC 错误总数。 | 个 | InstanceId | |
| DCGM_FI_DEV_NVLINK_CRC_FLIT_ERROR_COUNT_TOTAL | NVLink流控制 CRC 错误总数 | 个 | InstanceId | |
| DCGM_FI_DEV_NVLINK_REPLAY_ERROR_COUNT_TOTAL | NVLink重试总数 | 个 | InstanceId | |
| TcpLossSegs | TCP丢包数 | 个 | InstanceId | |
| TcpOutSegs | TCP发送包数 | 个 | InstanceId | |
| TcpInSegs | TCP接收包数 | 个 | InstanceId | |
| TcpRetranSegs | TCP重传数 | 次 | InstanceId | |
| SwapUsedBytes | 交换分区使用量 | Bytes | InstanceId | |
| SwapTotalBytes | 交换分区总量 | Bytes | InstanceId | |
| SwapFreeBytes | 交换分区空闲量 | Bytes | InstanceId | |
| MemUsedPercent | 内存使用率 | % | InstanceId | |
| Gpu0UtilizationMemory | 内存使用率 | % | InstanceId | |
| MemUsedBytes | 内存使用量 | Bytes | InstanceId | |
| Gpu0MemoryUsed | 内存使用量 | Bytes | InstanceId | |
| MemAvailableBytes | 内存可用量 | Bytes | InstanceId | |
| MemTotalBytes | 内存总量 | Bytes | InstanceId | |
| Gpu0MemoryTotal | 内存总量 | Bytes | InstanceId | |
| MemFreeBytes | 内存空闲量 | Bytes | InstanceId | |
| Gpu0MemoryFree | 内存空闲量 | Bytes | InstanceId | |
| Cpu0ProcessorPercent | 单核cpu使用率 | % | InstanceId | |
| Cpu0IdlePercent | 单核cpu空闲率 | % | InstanceId | |
| MemBufferBytes | 块设备读写内存缓冲量 | Bytes | InstanceId | |
| TcpCurrentEstab | 已建立的TCP连接数 | 个 | InstanceId | |
| GpuAllEccErrors | 所有gpu卡的ECC错误数 | InstanceId | ||
| GpuAvgGpuUtilizationForall | 所有gpu的平均gpu使用率 | % | InstanceId | |
| GpuAvgMemoryUtilizationForall | 所有gpu的平均内存使用率 | % | InstanceId | |
| GpuMaxGpuUtilization | 所有gpu的最大gpu使用率 | % | InstanceId | |
| GpuMaxMemoryUtilization | 所有gpu的最大内存使用率 | % | InstanceId | |
| GpuMaxTemperature | 所有gpu的最高温度 | ℃ | InstanceId | |
| DiskUsedBytes | 整台服务器的磁盘使用总量 | Bytes | InstanceId | |
| DiskUsedPercent | 整台服务器的磁盘使用率 | % | InstanceId | |
| DiskFreeBytes | 整台服务器的磁盘空闲总量 | Bytes | InstanceId | |
| DiskTotalBytes | 整台服务器的磁盘空间总量 | Bytes | InstanceId | |
| MemCacheBytes | 文件系统内存cache值 | Bytes | InstanceId | |
| GpuMaxGpuUtilizationIndex | 最大gpu使用率的gpu编号 | InstanceId | ||
| GpuMaxMemoryUtilizationIndex | 最大内存使用率的gpu编号 | InstanceId | ||
| CpuLoadAvg15 | 最近15分钟服务器CPU负载 | % | InstanceId | |
| CpuLoadAvg1 | 最近1分钟服务器CPU负载 | % | InstanceId | |
| CpuLoadAvg5 | 最近5分钟服务器CPU负载 | % | InstanceId | |
| GpuMaxEccErrorsIndex | 最高ECC错误数的gpu卡编号 | InstanceId | ||
| GpuMaxTemperatureIndex | 最高温度的gpu编号 | InstanceId | ||
| DiskUsedInodes | 服务器inode总使用数 | 个 | InstanceId | |
| DiskInodesUsedPercent | 服务器inode总使用率 | % | InstanceId | |
| DiskTotalInodes | 服务器inode总数 | 个 | InstanceId | |
| DiskFreeInodes | 服务器inode总空闲数 | 个 | InstanceId | |
| RootUsedPercent | 根磁盘空间使用率 | % | InstanceId | |
| RootUsedBytes | 根磁盘空间使用量 | Bytes | InstanceId | |
| CpuInterruptSecond | 每秒CPU的中断次数 | 次/秒 | InstanceId | |
| CpuContextSwitchSecond | 每秒上下文切换次数 | 次/秒 | InstanceId | |
| vDiskWriteOpCountPerSecond | 每秒磁盘IO写入次数 | 次/秒 | InstanceId | |
| vDiskWriteBytesPerSecond | 每秒磁盘IO写入量 | Bytes/s | InstanceId | |
| vDiskReadOpCountPerSecond | 每秒磁盘IO读取次数 | 次/秒 | InstanceId | |
| vDiskReadBytesPerSecond | 每秒磁盘IO读取量 | Bytes/s | InstanceId | |
| CpuUserPercent | 用户cpu时间比率 | % | InstanceId | |
| CpuWaitPercent | 等待Iocpu时间比率 | % | InstanceId | |
| CpuSystemPercent | 系统cpu时间比率 | % | InstanceId | |
| VNicInPPS | 网卡输入包速率 | pps | InstanceId | |
| VNicInBPS | 网卡输入带宽 | bps | InstanceId | |
| vNicInBytes | 网卡输入流量 | Bytes | InstanceId | |
| VNicOutPPS | 网卡输出包速率 | pps | InstanceId | |
| VNicOutBPS | 网卡输出带宽 | bps | InstanceId | |
| vNicOutBytes | 网卡输出流量 | Bytes | InstanceId |
