简介：本文详细阐述如何利用Prometheus构建Hadoop服务与数据库的监控体系，涵盖架构设计、指标采集、告警策略及优化实践，助力企业实现全链路可观测性。

一、为什么需要Prometheus监控Hadoop与数据库？

Hadoop作为分布式存储与计算框架，其组件（HDFS、YARN、MapReduce等）的稳定性直接影响大数据处理效率。而数据库（MySQL、PostgreSQL等）作为核心数据存储层，性能波动可能导致业务中断。传统监控方案（如Ganglia、Nagios）存在以下痛点：

指标覆盖不足：难以全面捕获Hadoop内部指标（如DataNode磁盘利用率、ResourceManager资源分配）
告警延迟高：基于阈值的静态告警无法适应动态负载场景
可视化局限：缺乏多维数据钻取能力，难以定位根因

Prometheus通过其多维数据模型、高效拉取机制和强大的PromQL查询语言，可实现：

实时采集Hadoop集群200+核心指标
对数据库查询延迟、连接数等关键指标进行动态阈值告警
与Grafana集成提供可视化诊断面板

二、Hadoop服务监控实施路径

1. 指标采集方案

1.1 原生Exporter部署

JMX Exporter：通过Hadoop的JMX接口暴露指标（需在hadoop-env.sh中启用JMX）

# 启动NameNode时添加JMX参数
export HADOOP_NAMENODE_OPTS="-Dcom.sun.management.jmxremote.port=8004 \
-Dcom.sun.management.jmxremote.ssl=false \
-Dcom.sun.management.jmxremote.authenticate=false"

配置jmx_exporter.yaml定义关键指标：
```yaml
rules:

pattern: “Hadoop<>Cluster.“
name: “hadoopnamenode_cluster$1”
```

1.2 自定义Exporter开发

对于HDFS平衡状态等非JMX指标，可通过Python开发自定义Exporter：

from prometheus_client import start_http_server, Gauge
import subprocess
def get_hdfs_balance():
    result = subprocess.run(["hdfs", "dfsadmin", "-report"], stdout=subprocess.PIPE)
    # 解析输出获取UnderReplicatedBlocks等指标
    return under_replicated_blocks
under_replicated = Gauge('hadoop_hdfs_under_replicated_blocks', 'Count of under replicated blocks')
if __name__ == '__main__':
    start_http_server(8005)
    while True:
        under_replicated.set(get_hdfs_balance())
        time.sleep(60)

2. 关键监控指标

组件	核心指标	告警阈值
NameNode	UnderReplicatedBlocks	>50持续10分钟
DataNode	DiskUsagePercent	>90%
YARN	AppsPending	>10持续5分钟
ResourceManager	ScheduledApps	0持续3分钟（异常）

3. 告警规则优化

使用PromQL的predict_linear函数实现趋势预测告警：

- alert: HDFSStorageForecast
  expr: predict_linear(hadoop_hdfs_capacity_used_bytes[1h], 24*3600) > 
        hadoop_hdfs_capacity_total_bytes * 0.9
  for: 30m
  labels:
    severity: critical
  annotations:
    summary: "HDFS存储将在24小时内耗尽"

三、数据库监控深度实践

1. MySQL监控方案

1.1 mysqld_exporter配置

# my.cnf配置段
[mysqld]
performance_schema=ON
userstat=ON

启动Exporter时指定免密登录：

mysqld_exporter \
  --mysql.user=prom_user \
  --mysql.password='ENCRYPTED_PASS' \
  --collect.global_status \
  --collect.info_schema.innodb_metrics

1.2 关键监控项

连接池健康度：

sum(mysql_global_status_threads_connected) / 
sum(mysql_global_variables_max_connections) * 100 > 85

慢查询趋势：

rate(mysql_global_status_slow_queries[5m]) > 0.5

2. PostgreSQL监控优化

2.1 pg_exporter高级配置

启用track_io_timing获取磁盘I/O详情：

-- 在postgresql.conf中添加
shared_preload_libraries = 'pg_stat_statements'
track_io_timing = on

2.2 锁等待检测

sum(pg_stat_activity_wait_event_type{wait_event_type="Lock"}) by (datname) > 0

四、进阶优化技巧

1. 联邦集群监控

对于跨机房Hadoop集群，使用Prometheus联邦架构：

# prometheus-federate.yml
scrape_configs:
  - job_name: 'federate'
    scrape_interval: 15s
    honor_labels: true
    metrics_path: '/federate'
    params:
      'match[]':
        - '{job=~"hadoop.*"}'
        - '{job=~"mysql.*"}'
    static_configs:
      - targets: ['prom-us:9090', 'prom-eu:9090']

2. 记录规则加速查询

对常用聚合查询创建记录规则：

# prometheus.yml
rule_files:
  - 'hadoop_rules.yml'
# hadoop_rules.yml
groups:
- name: hadoop.rules
  rules:
  - record: job:hadoop_namenode_heap_usage:ratio
    expr: |
      sum(hadoop_namenode_jvm_memory_used_bytes{area="heap"}) by (job)
      /
      sum(hadoop_namenode_jvm_memory_max_bytes{area="heap"}) by (job)

3. 容量规划模型

基于历史数据预测资源需求：

# 预测未来7天YARN容器需求
predict_linear(
  sum(yarn_cluster_metrics_containers_pending) by (queue)[7d],
  7*24*3600
) > 1000

五、典型问题解决方案

1. 高基数维度问题

当按host标签监控时出现性能下降，可通过以下方式优化：

使用recording rules预聚合
在Exporter端限制标签组合
采用Prometheus的external_labels进行分区

2. 短生命周期任务监控

对于MapReduce等短时任务，配置：

# scrape_config添加
metric_relabel_configs:
  - source_labels: [job]
    regex: 'mapreduce_.*'
    action: keep
  - target_label: 'task_id'
    replacement: '${1}'  # 从指标元数据提取

六、最佳实践总结

分层监控：基础指标（CPU/内存）→ 组件指标（HDFS块状态）→ 业务指标（作业成功率）
渐进式部署：先监控核心组件（NameNode/ResourceManager），再扩展到DataNode等
告警降噪：通过inhibition_rules抑制关联告警，如HDFS空间不足时抑制相关作业失败告警
容量测试：使用prombench模拟不同负载下的监控系统表现

通过上述方案，某金融客户实现了：

Hadoop集群故障定位时间从2小时缩短至15分钟
数据库慢查询发现效率提升300%
监控系统自身资源占用降低40%

建议企业每季度进行一次监控指标评审，结合业务发展调整监控策略。对于超大规模集群（>1000节点），可考虑采用Thanos或Cortex进行长期存储扩展。

Prometheus全栈监控：Hadoop集群与数据库的深度实践指南