免费指标
概述
本文介绍 Prometheus 监控服务提供的免费指标。
ETCD
指标 |
描述 |
etcd_server_has_leader |
ETCD服务器有Leader |
etcd_server_is_leader |
ETCD服务器是否为Leader |
etcd_server_leader_changes_seen_total |
ETCD服务器见证Leader变更总数 |
etcd_mvcc_db_total_size_in_bytes |
ETCD MVCC数据库总大小(字节) |
etcd_mvcc_db_total_size_in_use_in_bytes |
ETCD MVCC数据库实际使用总大小(字节) |
etcd_debugging_mvcc_keys_total |
ETCD调试MVCC键总数 |
etcd_disk_backend_commit_duration_seconds_bucket |
ETCD磁盘后端提交持续时间秒桶 |
etcd_server_proposals_committed_total |
ETCD服务器已提交提案总数 |
etcd_server_proposals_pending |
ETCD服务器待处理提案数 |
etcd_server_proposals_failed_total |
ETCD服务器提案失败总数 |
APIServer
指标 |
描述 |
apiserver_request_total |
API总请求数 |
apiserver_current_inflight_requests |
APIServer正在处理的请求数量 |
apiserver_dropped_requests_total |
APIServer丢弃的请求总数 |
apiserver_request_duration_seconds_bucket |
APIServer请求处理时间(以秒为单位)的桶 |
etcd_request_duration_seconds_bucket |
ETCD请求处理时间(以秒为单位)的桶计数器 |
apiserver_admission_controller_admission_duration_seconds_bucket |
APIServer准入控制器准入耗时秒数桶 |
apiserver_admission_webhook_admission_duration_seconds_bucket |
APIServer准入Webhook准入耗时秒数桶 |
Controller-Manager
指标 |
描述 |
workqueue_adds_total |
工作队列添加总数 |
workqueue_depth |
工作队列深度 |
workqueue_queue_duration_seconds_bucket |
工作队列排队时长(秒)分位桶 |
rest_client_requests_total |
REST客户端:请求总数 |
rest_client_request_duration_seconds_bucket |
REST客户端:请求耗时秒数分桶 |
Scheduler
指标 |
描述 |
scheduler_scheduler_cache_size |
调度器:调度器缓存大小 |
scheduler_pending_pods |
调度器:待调度Pod数 |
scheduler_pod_scheduling_attempts_bucket |
调度器:Pod调度尝试次数分桶 |
rest_client_requests_total |
REST客户端:请求总数 |
rest_client_request_duration_seconds_bucket |
REST客户端:请求耗时秒数分桶 |
节点
指标 |
描述 |
node_infiniband_port_constraint_errors_transmitted_total |
节点InfiniBand端口约束错误发送总数 |
node_sockstat_TCP_alloc |
TCP套接字分配数 |
node_memory_Buffers_bytes |
节点buffers内存大小(字节) |
node_filesystem_files |
节点文件系统文件数 |
node_memory_MemTotal_bytes |
节点总内存大小(字节) |
node_memory_Cached_bytes |
节点cached内存大小(字节) |
node_memory_MemFree_bytes |
节点空闲内存大小(字节) |
node_netstat_Tcp_PassiveOpens |
TCP被动打开连接数 |
node_disk_reads_completed_total |
节点磁盘读取完成总数 |
node_cpu_seconds_total |
节点CPU使用时间总计 |
node_disk_written_bytes_total |
节点磁盘写入字节总数 |
node_boot_time_seconds |
节点启动时间(秒) |
node_memory_MemAvailable_bytes |
节点可用内存大小(字节) |
node_infiniband_port_constraint_errors_received_total |
节点InfiniBand端口约束错误接收总数 |
node_infiniband_port_packets_transmitted_total |
节点InfiniBand端口发送包总数 |
node_load1 |
节点1分钟负载 |
node_filesystem_files_free |
节点文件系统空闲文件数 |
node_load15 |
节点15分钟负载 |
node_filesystem_size_bytes |
节点文件系统总大小字节数 |
node_netstat_Tcp_CurrEstab |
当前建立的TCP连接数 |
node_sockstat_TCP_inuse |
TCP套接字使用中 |
node_infiniband_port_data_transmitted_bytes_total |
节点InfiniBand端口数据发送字节总数 |
node_infiniband_port_data_received_bytes_total |
节点InfiniBand端口数据接收字节总数 |
node_disk_read_bytes_total |
节点磁盘读取字节总计 |
node_disk_writes_completed_total |
节点磁盘写入完成总数 |
node_infiniband_link_downed_total |
节点InfiniBand链路断开总数 |
node_infiniband_port_packets_received_total |
节点InfiniBand端口接收包总数 |
node_load5 |
节点5分钟负载 |
node_filesystem_avail_bytes |
节点文件系统可用字节数 |
node_disk_io_time_seconds_total |
节点磁盘I/O时间总计(秒) |
node_filesystem_free_bytes |
节点文件系统空闲字节数 |
node_filefd_allocated |
节点文件描述符已分配 |
node_sockstat_TCP_tw |
TCP TIME_WAIT套接字数 |
node_filefd_maximum |
节点文件描述符最大值 |
node_netstat_Tcp_ActiveOpens |
TCP主动打开连接数 |
node_network_transmit_bytes_total |
累计发送字节总数 |
node_network_receive_bytes_total |
累计接收字节总数 |
node_disk_write_time_seconds_total |
节点磁盘写入时间总秒数 |
node_disk_read_time_seconds_total |
节点磁盘读取时间总计(秒) |
node_infiniband_info |
节点InfiniBand信息 |
node_infiniband_legacy_packets_received_total |
节点通过InfiniBand网络接收到的数据包的总数量 |
cAdvisor
指标 |
描述 |
container_memory_working_set_bytes |
容器内存工作集字节 |
container_fs_writes_total |
已完成写入的累计计数 |
container_memory_rss |
RSS的大小 |
container_sockets |
容器的开放套接字数量 |
container_network_receive_errors_total |
接收时遇到的错误的累积计数 |
container_fs_reads_total |
已完成的读取累计计数 |
container_cpu_usage_seconds_total |
容器CPU使用时间总计 |
container_fs_reads_bytes_total |
累计读取字节数 |
container_spec_memory_limit_bytes |
容器的内存限制 |
container_network_receive_bytes_total |
容器网络接收字节总计 |
container_network_transmit_bytes_total |
容器网络传输字节总计 |
container_fs_writes_bytes_total |
累计写入字节数 |
container_network_transmit_errors_total |
传输时遇到的错误的累积计数 |
container_cpu_system_seconds_total |
累计消耗的系统CPU时间 |
container_cpu_user_seconds_total |
累计用户CPU时间消耗 |
kubernetes-pods-kube-state-metrics
指标 |
描述 |
kube_node_info |
节点信息 |
kube_node_status_allocatable |
节点可分配资源量 |
kube_deployment_status_replicas_available |
Kubernetes Deployment可用副本数 |
kube_statefulset_status_replicas |
有状态副本集状态副本数 |
kube_pod_container_status_terminated |
Pod容器终止状态 |
kube_pod_start_time |
Pod启动时间 |
kube_node_status_condition |
节点状态条件 |
kube_job_info |
job信息 |
kube_configmap_info |
Kubernetes ConfigMap信息 |
kube_node_spec_unschedulable |
节点是否可调度标志 |
kube_daemonset_status_number_unavailable |
Kubernetes DaemonSet不可用节点数量 |
kube_statefulset_status_replicas_updated |
有状态副本集状态更新副本数 |
kube_pod_container_resource_limits |
Pod容器资源限制 |
kube_deployment_status_replicas_ready |
Kubernetes Deployment就绪副本数 |
kube_deployment_status_replicas_unavailable |
Kubernetes Deployment不可用副本数 |
kube_daemonset_status_desired_number_scheduled |
Kubernetes DaemonSet期望计划的节点数量 |
kube_persistentvolumeclaim_info |
持久卷声明信息 |
kube_cronjob_status_active |
Kubernetes CronJob活跃作业数 |
kube_pod_owner |
Pod所属对象 |
kube_persistentvolumeclaim_status_phase |
持久卷声明状态阶段 |
kube_statefulset_created |
有状态副本集创建时间 |
kube_pod_container_status_waiting |
Pod容器等待状态 |
kube_pod_container_status_restarts_total |
Pod容器重启总数 |
kube_secret_info |
secret信息 |
kube_pod_info |
Pod信息 |
kube_persistentvolumeclaim_resource_requests_storage_bytes |
持久卷声明存储资源请求量 |
kube_deployment_status_replicas_updated |
Kubernetes Deployment已更新副本数 |
kube_pod_status_phase |
Pod状态阶段 |
kube_service_info |
服务信息 |
kube_statefulset_status_replicas_available |
有状态副本集状态可用副本数 |
kube_cronjob_created |
Kubernetes CronJob创建时间 |
kube_ingress_info |
Ingress信息 |
kube_resourcequota |
资源配额 |
kube_resourcequota_created |
资源配额创建时间 |
kube_statefulset_metadata_generation |
有状态副本集元数据生成代数 |
kube_node_labels |
节点标签 |
kube_replicaset_owner |
副本集所属对象 |
kube_namespace_status_phase |
命名空间状态阶段 |
kube_pod_container_resource_requests |
Pod容器资源请求 |
kube_namespace_created |
命名空间创建时间 |
kube_pod_created |
Pod创建时间 |
kube_pod_status_ready |
Pod就绪状态 |
kube_statefulset_replicas |
有状态副本集副本数 |
kube_pod_status_unschedulable |
Pod未调度标志 |
kube_job_status_active |
job活跃状态数 |
kube_daemonset_created |
Kubernetes DaemonSet创建时间 |
kube_job_status_failed |
job失败状态数 |
kube_deployment_created |
Kubernetes Deployment创建时间 |
kube_replicaset_created |
Kubernetes ReplicaSet的创建时间 |
kube_service_spec_type |
服务类型规格 |
kube_node_status_capacity |
节点容量 |
kube_deployment_spec_replicas |
Kubernetes Deployment规格副本数 |
kube_pod_container_info |
Pod容器信息 |
kube_statefulset_status_replicas_ready |
有状态副本集状态就绪副本数 |
kube_deployment_status_replicas |
Kubernetes Deployment副本总数 |
CoreDNS
指标 |
描述 |
coredns_build_info |
CoreDNS构建信息 |
coredns_dns_request_count_total |
CoreDNS DNS请求计数总计 |
coredns_dns_requests_total |
CoreDNS DNS请求总数 |
coredns_dns_response_rcode_count_total |
CoreDNS DNS响应代码计数总计 |
coredns_dns_request_type_count_total |
CoreDNS DNS请求类型计数总计 |
coredns_dns_request_do_count_total |
CoreDNS DNS请求的总数 |
coredns_dns_do_requests_total |
CoreDNS DNS DO请求总数 |
coredns_dns_request_size_bytes_bucket |
CoreDNS DNS请求大小(字节)分位数 |
coredns_dns_responses_total |
CoreDNS DNS响应总数 |
coredns_dns_request_duration_seconds_bucket |
CoreDNS DNS请求持续时间(秒)分位数 |
coredns_dns_response_size_bytes_bucket |
CoreDNS DNS响应大小(字节)分位数 |
coredns_cache_size |
CoreDNS缓存大小 |
coredns_cache_entries |
CoreDNS缓存条目数 |
coredns_cache_hits_total |
CoreDNS缓存命中次数总计 |
coredns_cache_misses_total |
CoreDNS缓存未命中次数总计 |
kubernetes-cluster-pods
指标 |
描述 |
subnet_available_ip_count |
子网中的可用IP数量 |
multi_eni_multi_ip_eni_count |
同时拥有多个ENI和多个IP的实例数量 |
multi_eni_multi_ip_eniip_count |
同时拥有多个ENI和多个IP的ENI IP数量 |
primary_eni_multi_ip_eniip_allocated_count |
主ENI上已分配的多 IP 的ENI IP数量 |
primary_eni_multi_ip_eniip_total_count |
主ENI上的多IP的 ENI IP总数量 |
primary_eni_multi_ip_eniip_available_count |
主ENI上可用的多IP ENI IP数量 |
cni_rpc_latency_bucket |
CNI RPC的延迟分布。 |
cni_rpc_concurrency |
CNI RPC的并发数量。 |
bce_openapi_latency_bucket |
BCE(百度云)开放API的延迟分布。 |
memory_usage_percent |
内存使用百分比 |
cni_rpc_rejected_count |
被拒绝的CNI RPC数量 |
cni_rpc_error_count |
发生错误的CNI RPC数量 |
ingress-nginx-endpoints
指标 |
描述 |
nginx_ingress_controller_requests |
Nginx Ingress控制器请求总数 |
nginx_ingress_controller_nginx_process_connections |
Nginx Ingress控制器nginx进程连接数 |
nginx_ingress_controller_request_duration_seconds_bucket |
Nginx Ingress控制器请求耗时分布(秒) |
gpu-dcgm
指标 |
描述 |
DCGM_FI_DEV_FB_FREE |
表示帧缓存(Framebuffer Memory)剩余数。 |
DCGM_FI_DEV_FB_USED |
表示帧缓存已使用数。该值与nvidia-smi命令中Memory-Usage的已使用值对应。 |
DCGM_FI_DEV_GPU_UTIL |
表示GPU利用率,即在一个周期时间内(1s或1/6s,根据GPU产品而定),一个或多个核函数处于Active的时间。该指标仅能够展示有核函数在用的GPU资源,但无法展示具体的使用情况。 |
xpu-exporter
指标 |
描述 |
node_container_xpu_memtotal |
节点上容器的XPU总内存量 |
node_container_xpu_memused |
节点上容器的XPU已使用的内存量 |
node_container_xpu_memutil |
节点上容器的XPU内存使用率 |
node_container_xpu_utilization |
节点上容器的XPU利用率 |
node_xpu_utilization |
节点的XPU利用率 |
npu-exporter
指标 |
描述 |
container_npu_utilization |
容器的NPU利用率 |
container_npu_used_memory |
容器的NPU已使用的内存量 |
container_npu_total_memory |
容器的NPU总内存量 |
npu_chip_info_hbm_total_memory |
NPU芯片的HBM(High Bandwidth Memory,高带宽内存)总内存量 |
npu_chip_info_hbm_used_memory |
NPU芯片的HBM已使用的内存量 |
npu_chip_info_utilization |
NPU芯片的利用率 |
Volcano
指标 |
描述 |
volcano_job_creation_timestamp |
Volcano作业创建的时间戳 |
volcano_node_capacity |
Volcano节点的容量 |
volcano_node_idle |
Volcano节点的空闲状态 |
volcano_node_status |
Volcano节点的状态 |
volcano_node_used |
Volcano节点的使用情况 |
volcano_queue_allocated |
Volcano队列已分配的资源 |
volcano_queue_capacity_spec |
Volcano队列的容量规格 |
volcano_queue_deserved |
Volcano队列预留的资源 |
volcano_queue_deserved_spec |
Volcano队列预留资源的规格 |
volcano_queue_guarantee_spec |
Volcano队列保障资源的规格 |
volcano_queue_state |
Volcano队列的状态 |
volcano_task_resource_detail |
Volcano任务的资源详细信息 |
volcano_job_info |
Volcano作业的信息 |
volcano_job_retry_counts |
Volcano作业的重试次数 |
volcano_job_task_resource |
Volcano作业任务的资源使用情况 |
volcano_task_scheduling_latency_milliseconds_bucket |
Volcano任务调度延迟的毫秒数分布 |
volcano_task_scheduling_latency_milliseconds_count |
Volcano任务调度延迟的毫秒数总计数 |
volcano_task_scheduling_latency_milliseconds_sum |
Volcano任务调度延迟的毫秒数总和 |
volcano_task_status |
Volcano任务的状态 |
volcano_unschedule_task_count |
Volcano未调度任务的数量 |
volcano_action_scheduling_latency_microseconds_bucket |
Volcano行为调度延迟的微秒数分布 |
volcano_action_scheduling_latency_microseconds_count |
Volcano行为调度延迟的微秒数总计数 |
volcano_action_scheduling_latency_microseconds_sum |
Volcano行为调度延迟的微秒数总和 |
volcano_e2e_job_scheduling_latency_milliseconds_bucket |
Volcano端到端作业调度延迟的毫秒数分布 |
volcano_e2e_job_scheduling_latency_milliseconds_count |
Volcano端到端作业调度延迟的毫秒数总计数 |
volcano_e2e_job_scheduling_latency_milliseconds_sum |
Volcano端到端作业调度延迟的毫秒数总和 |
volcano_e2e_scheduling_latency_milliseconds_bucket |
Volcano端到端调度延迟的毫秒数分布 |
volcano_e2e_scheduling_latency_milliseconds_count |
Volcano端到端调度延迟的毫秒数总计数 |
volcano_e2e_scheduling_latency_milliseconds_sum |
Volcano端到端调度延迟的毫秒数总和 |