边缘计算节点 BEC
更新时间:2024-04-16
边缘计算节点 BEC 只包含实例监控(Instance)1种监控对象类型,实例监控包含的监控指标列表如下:
实例监控(Instance)
指标英文名称(metric name) | 指标中文名称 | 单位 | 维度 | 备注 |
---|---|---|---|---|
vCPUUsagePercent | CPU使用率 | % | InstanceId | |
CpuIdlePercent | CPU空闲率 | % | InstanceId | |
DiskCUsedBytes | C盘使用的空间 | Bytes | InstanceId | |
DiskCTotalBytes | C盘总空间 | Bytes | InstanceId | |
DiskCFreeBytes | C盘空闲空间 | Bytes | InstanceId | |
DiskCUsedPercent | C盘空间使用率 | % | InstanceId | |
DCGM_PIPE_FP16_ACTIVE | GPU FP16管道处于激活的周期分数 | % | InstanceId | |
DCGM_PROF_PIPE_FP32_ACTIVE | GPU FP32管道处于激活的周期分数 | % | InstanceId | |
DCGM_PROF_PIPE_FP64_ACTIVE | GPU FP64管道处于激活的周期分数 | % | InstanceId | |
DCGM_PROF_GR_ENGINE_ACTIVE | GPU Graphics或Compute引擎激活时间占比 | % | InstanceId | |
PROF_PCIE_TX_BYTES | GPU PCIe总线传输的数据速率 | Bytes | InstanceId | |
PROF_PCIE_RX_BYTES | GPU PCIe总线接收的数据速率 | Bytes | InstanceId | |
DCGM_SM_CLOCK | GPU sm 时钟频率 | HZ | InstanceId | |
DCGM_APP_SM_CLOCK | GPU SM应用时钟频率 | HZ | InstanceId | |
DCGM_PROF_SM_ACTIVE | GPU SM激活的时间占比 | % | InstanceId | |
DCGM_PROF_PIPE_TENSOR_ACTIVE | GPU Tensor Pipe处于激活的周期分数 | % | InstanceId | |
DCGM_PROF_DRAM_ACTIVE | GPU 内存带宽利用率 | % | InstanceId | |
DCGM_APP_MEMORY_CLOCK | GPU 内存应用时钟频率 | HZ | InstanceId | |
DCGM_MEMORY_CLOCK | GPU 内存时钟频率 | HZ | InstanceId | |
DCGM_GPU_UTILIZATION | GPU 利用率 | % | InstanceId | |
DCGM_ECC_SBE_AGG_TOTAL | GPU 单位持久性 ECC 错误的总数 | 个 | InstanceId | |
DCGM_ECC_SBE_VOL_TOTAL | GPU 单位易失性 ECC 错误总数 | 个 | InstanceId | |
DCGM_ECC_DBE_AGG_TOTAL | GPU 双位持久性 ECC 错误的总数 | 个 | InstanceId | |
DCGM_ECC_DBE_VOL_TOTAL | GPU 双位易失性 ECC 错误总数 | 个 | InstanceId | |
DCGM_FB_USED | GPU 帧缓存使用 | MiB | InstanceId | |
DCGM_FB_FREE | GPU 帧缓存剩余 | MiB | InstanceId | |
DCGM_POWER_USAGE | GPU 的功率 | W | InstanceId | |
DCGM_ENC_UTILIZATION | GPU 编码器利用率 | % | InstanceId | |
DCGM_DEC_UTILIZATION | GPU 解码器利用率 | % | InstanceId | |
DCGM_GPU_TEMP | GPU 运行的温度 | ℃ | InstanceId | |
DCGM_FAN_SPEED_PERCENT | GPU 风扇转速占比 | % | InstanceId | |
DCGM_PROF_SM_OCCUPANCY | GPU 驻留在SM上的线程数占比 | % | InstanceId | |
Gpu0UtilizationGpu | gpu使用率 | % | InstanceId | |
GpuStatus | gpu卡整体状态 | InstanceId | ||
GpuXStatus | gpu卡状态 | InstanceId | ||
GpuXEccErrors | gpu卡的ECC错误数 | 个 | InstanceId | |
GpuXError | gpu卡错误信息 | InstanceId | ||
GpuError | gpu卡错误信息 | InstanceId | ||
DCGM_GPU_PERF | GPU性能状态值 | - | InstanceId | |
DCGM_MEM_COPY_UTILIZATION | GPU的内存拷贝利用率 | % | InstanceId | |
DCGM_MEM_TEMP | GPU的内存温度 | ℃ | InstanceId | |
Gpu0Temperature | gpu的温度 | ℃ | InstanceId | |
DCGM_FI_DEV_TOTAL_ENERGY_CONSUMPTION | GPU自启动以来的总能耗 | J | InstanceId | |
HomeUsedPercent | HOME磁盘空间使用率 | % | InstanceId | |
HomeUsedBytes | HOME磁盘空间使用量 | Bytes | InstanceId | |
DCGM_FI_DEV_NVLINK_BANDWIDTH_TOTAL | NVLink 带宽计数器总数 | 个 | InstanceId | |
PROF_NVLINK_TX_BYTES | NVLink传输的数据速率 | Bytes | InstanceId | |
DCGM_FI_DEV_NVLINK_RECOVERY_ERROR_COUNT_TOTAL | NVLink恢复错误总数 | 个 | InstanceId | |
PROF_NVLINK_RX_BYTES | NVLink接收的数据速率 | Bytes | InstanceId | |
DCGM_FI_DEV_NVLINK_CRC_DATA_ERROR_COUNT_TOTAL | NVLink数据 CRC 错误总数。 | 个 | InstanceId | |
DCGM_FI_DEV_NVLINK_CRC_FLIT_ERROR_COUNT_TOTAL | NVLink流控制 CRC 错误总数 | 个 | InstanceId | |
DCGM_FI_DEV_NVLINK_REPLAY_ERROR_COUNT_TOTAL | NVLink重试总数 | 个 | InstanceId | |
TcpLossSegs | TCP丢包数 | 个 | InstanceId | |
TcpOutSegs | TCP发送包数 | 个 | InstanceId | |
TcpInSegs | TCP接收包数 | 个 | InstanceId | |
TcpRetranSegs | TCP重传数 | 次 | InstanceId | |
SwapUsedBytes | 交换分区使用量 | Bytes | InstanceId | |
SwapTotalBytes | 交换分区总量 | Bytes | InstanceId | |
SwapFreeBytes | 交换分区空闲量 | Bytes | InstanceId | |
MemUsedPercent | 内存使用率 | % | InstanceId | |
Gpu0UtilizationMemory | 内存使用率 | % | InstanceId | |
MemUsedBytes | 内存使用量 | Bytes | InstanceId | |
Gpu0MemoryUsed | 内存使用量 | Bytes | InstanceId | |
MemAvailableBytes | 内存可用量 | Bytes | InstanceId | |
MemTotalBytes | 内存总量 | Bytes | InstanceId | |
Gpu0MemoryTotal | 内存总量 | Bytes | InstanceId | |
MemFreeBytes | 内存空闲量 | Bytes | InstanceId | |
Gpu0MemoryFree | 内存空闲量 | Bytes | InstanceId | |
Cpu0ProcessorPercent | 单核cpu使用率 | % | InstanceId | |
Cpu0IdlePercent | 单核cpu空闲率 | % | InstanceId | |
MemBufferBytes | 块设备读写内存缓冲量 | Bytes | InstanceId | |
TcpCurrentEstab | 已建立的TCP连接数 | 个 | InstanceId | |
GpuAllEccErrors | 所有gpu卡的ECC错误数 | InstanceId | ||
GpuAvgGpuUtilizationForall | 所有gpu的平均gpu使用率 | % | InstanceId | |
GpuAvgMemoryUtilizationForall | 所有gpu的平均内存使用率 | % | InstanceId | |
GpuMaxGpuUtilization | 所有gpu的最大gpu使用率 | % | InstanceId | |
GpuMaxMemoryUtilization | 所有gpu的最大内存使用率 | % | InstanceId | |
GpuMaxTemperature | 所有gpu的最高温度 | ℃ | InstanceId | |
DiskUsedBytes | 整台服务器的磁盘使用总量 | Bytes | InstanceId | |
DiskUsedPercent | 整台服务器的磁盘使用率 | % | InstanceId | |
DiskFreeBytes | 整台服务器的磁盘空闲总量 | Bytes | InstanceId | |
DiskTotalBytes | 整台服务器的磁盘空间总量 | Bytes | InstanceId | |
MemCacheBytes | 文件系统内存cache值 | Bytes | InstanceId | |
GpuMaxGpuUtilizationIndex | 最大gpu使用率的gpu编号 | InstanceId | ||
GpuMaxMemoryUtilizationIndex | 最大内存使用率的gpu编号 | InstanceId | ||
CpuLoadAvg15 | 最近15分钟服务器CPU负载 | % | InstanceId | |
CpuLoadAvg1 | 最近1分钟服务器CPU负载 | % | InstanceId | |
CpuLoadAvg5 | 最近5分钟服务器CPU负载 | % | InstanceId | |
GpuMaxEccErrorsIndex | 最高ECC错误数的gpu卡编号 | InstanceId | ||
GpuMaxTemperatureIndex | 最高温度的gpu编号 | InstanceId | ||
DiskUsedInodes | 服务器inode总使用数 | 个 | InstanceId | |
DiskInodesUsedPercent | 服务器inode总使用率 | % | InstanceId | |
DiskTotalInodes | 服务器inode总数 | 个 | InstanceId | |
DiskFreeInodes | 服务器inode总空闲数 | 个 | InstanceId | |
RootUsedPercent | 根磁盘空间使用率 | % | InstanceId | |
RootUsedBytes | 根磁盘空间使用量 | Bytes | InstanceId | |
CpuInterruptSecond | 每秒CPU的中断次数 | 次/秒 | InstanceId | |
CpuContextSwitchSecond | 每秒上下文切换次数 | 次/秒 | InstanceId | |
vDiskWriteOpCountPerSecond | 每秒磁盘IO写入次数 | 次/秒 | InstanceId | |
vDiskWriteBytesPerSecond | 每秒磁盘IO写入量 | Bytes/s | InstanceId | |
vDiskReadOpCountPerSecond | 每秒磁盘IO读取次数 | 次/秒 | InstanceId | |
vDiskReadBytesPerSecond | 每秒磁盘IO读取量 | Bytes/s | InstanceId | |
CpuUserPercent | 用户cpu时间比率 | % | InstanceId | |
CpuWaitPercent | 等待Iocpu时间比率 | % | InstanceId | |
CpuSystemPercent | 系统cpu时间比率 | % | InstanceId | |
VNicInPPS | 网卡输入包速率 | pps | InstanceId | |
VNicInBPS | 网卡输入带宽 | bps | InstanceId | |
vNicInBytes | 网卡输入流量 | Bytes | InstanceId | |
VNicOutPPS | 网卡输出包速率 | pps | InstanceId | |
VNicOutBPS | 网卡输出带宽 | bps | InstanceId | |
vNicOutBytes | 网卡输出流量 | Bytes | InstanceId |