简介：本文详细解析Prometheus监控K8s集群的核心架构、配置方法及优化策略，涵盖服务发现、数据抓取、告警规则等关键环节，提供从部署到调优的全流程指导。

一、为什么选择Prometheus监控K8s集群？

Kubernetes（K8s）作为容器编排领域的标准，其动态性、分布式特性对监控系统提出了更高要求。传统监控工具（如Zabbix、Nagios）难以适应K8s中Pod频繁创建/销毁、服务动态扩容的场景。而Prometheus凭借以下优势成为K8s监控的首选方案：

原生支持K8s生态：通过Service Discovery机制自动发现K8s资源（如Pod、Service、Endpoint），无需手动维护目标列表。
时序数据库优化：专为高基数、高频采集的指标设计，支持每秒百万级指标的写入与查询。
灵活的告警能力：PromQL查询语言可实现复杂条件告警，结合Alertmanager支持多级通知、静默规则等。
开源与扩展性：社区提供丰富的Exporter（如Node Exporter、cAdvisor）和第三方集成（如Grafana可视化）。

二、Prometheus监控K8s的核心架构

1. 数据采集层

K8s Service Discovery：Prometheus通过配置kubernetes_sd_config自动发现K8s资源，支持以下模式：

scrape_configs:
  - job_name: 'kubernetes-pods'
    kubernetes_sd_configs:
      - role: pod
    relabel_configs:
      # 筛选带特定注解的Pod（如prometheus.io/scrape=true）
      - source_labels: [__meta_kubernetes_pod_annotation_prometheus_io_scrape]
        action: keep
        regex: true

Exporter集成：
- Node Exporter：采集节点级指标（CPU、内存、磁盘）。
- cAdvisor：内置于Kubelet，提供容器级资源指标。
- 自定义Exporter：通过Prometheus Client库（Go/Python/Java）暴露业务指标。

2. 数据存储与查询

本地存储：默认使用TSDB引擎，适合中小规模集群（需定期压缩旧数据）。
远程存储：生产环境推荐集成Thanos或Cortex，实现全局视图与长期存储。

PromQL查询示例：

# 查询所有节点CPU使用率
100 - (avg by (instance) (rate(node_cpu_seconds_total{mode="idle"}[5m])) * 100)
# 查询Pod内存限制与使用量对比
container_memory_working_set_bytes{pod=~"nginx-.*"} / container_spec_memory_limit_bytes{pod=~"nginx-.*"} * 100

3. 告警与通知

Alertmanager配置：通过route和receiver定义告警路由策略：

route:
  group_by: ['alertname']
  receiver: 'email-team'
  routes:
    - match:
        severity: 'critical'
      receiver: 'pagerduty'
receivers:
  - name: 'email-team'
    email_configs:
      - to: 'ops@example.com'

告警规则示例：

groups:
  - name: k8s-cluster.rules
    rules:
      - alert: HighCPUUsage
        expr: (100 - (avg by (instance) (rate(node_cpu_seconds_total{mode="idle"}[5m])) * 100)) > 85
        for: 10m
        labels:
          severity: warning
        annotations:
          summary: "Node {{ $labels.instance }} CPU usage is high"

三、部署与配置实战

1. 使用Helm快速部署

# 添加Prometheus社区Helm仓库
helm repo add prometheus-community https://prometheus-community.github.io/helm-charts
# 部署Prometheus Operator（推荐生产环境使用）
helm install prometheus prometheus-community/kube-prometheus-stack \
  --set prometheus.prometheusSpec.serviceMonitorSelectorNilUsesHelmValues=false

2. 关键配置优化

资源限制：为Prometheus Pod分配足够内存（建议4GB+），避免OOM。
数据保留策略：通过--storage.tsdb.retention.time=30d设置30天数据保留。
刮取间隔调整：根据指标重要性设置不同scrape_interval（如核心服务15s，次要服务60s）。

3. 常见问题排查

指标缺失：检查Pod注解prometheus.io/scrape和端口暴露（需为HTTP且路径为/metrics）。
告警不触发：验证Alertmanager配置路由，检查PromQL表达式是否返回有效时间序列。
高基数问题：避免使用__name__等高基数标签，优先通过by聚合指标。

四、进阶场景与最佳实践

1. 多集群监控

Thanos Query：通过Sidecar模式连接多个Prometheus实例，实现全局查询。
联邦采集：在中心Prometheus中配置federation抓取边缘集群指标。

2. 自定义指标扩展

开发Exporter：以Go为例，使用promhttp库快速实现：

package main
import (
  "net/http"
  "github.com/prometheus/client_golang/prometheus"
  "github.com/prometheus/client_golang/prometheus/promhttp"
)
var (
  requestsTotal = prometheus.NewCounter(prometheus.CounterOpts{
    Name: "app_requests_total",
    Help: "Total HTTP requests",
  })
)
func init() {
  prometheus.MustRegister(requestsTotal)
}
func main() {
  http.Handle("/metrics", promhttp.Handler())
  http.ListenAndServe(":8080", nil)
}

3. 性能调优

TSDB压缩：定期执行promtool tsdb compact减少存储占用。
查询优化：避免在PromQL中使用复杂函数链，优先通过Recording Rules预计算常用指标。

五、总结与建议

Prometheus监控K8s集群的核心在于自动化发现、高效采集和智能告警。对于中小规模集群，可直接使用Helm部署Operator；大规模场景需结合Thanos实现水平扩展。建议定期审查告警规则，避免“告警疲劳”，同时通过Grafana构建业务看板，将监控数据转化为决策依据。

实践建议：

优先监控K8s核心组件（API Server、Etcd、Scheduler）的延迟与错误率。
为关键业务Pod添加自定义指标（如订单处理速率、队列积压数）。
建立分级告警机制（P0-P3），确保核心故障第一时间通知。

通过合理配置Prometheus，开发者可全面掌握K8s集群健康状态，为容器化应用的稳定运行提供坚实保障。

Prometheus高效监控K8s集群：架构配置与实战指南