监控与报警
本文档主要介绍 Palo 的监控项与相关报警配置。
用户进入 Palo 集群详情页后,可以点击上方的 监控 标签进入监控页面。
Palo 根据节点类型的不同,展示不同的监控项。用户可以在 节点类型 中选择 Leader Node 或 Compute Node,在 监控对象 中勾选希望查看的实例(最多勾选10个),然后选择相关的监控项进行查看。
监控指标说明
公共监控指标
Leader Node 和 Compute Node 都有以下公共的监控指标:
-
CPU使用率
以百分比显示CPU使用率,数值越高,表示CPU负载越高。
-
内存使用量
以 GB 为单位显示内存使用量。
-
内存使用率
以百分比显示内存使用率,数值越高,表示节点当前消耗内存越大。
-
磁盘空间使用量
以 GB 为单位显示节点整体的磁盘使用量。
-
磁盘使用率
以百分比显示节点整体的磁盘使用率。当前不支持显示单独某个磁盘的使用率。
-
CPU Stolen
以百分比显示 CPU stolen 的比率。该值高于 10%,则说明可能该节点的 CPU 资源可能被抢占严重。
Leader Node 独有监控指标
-
当前连接数
显示当前通过 Mysql 端口连接到 Leader Node 的连接数。
-
当前元数据日志id
显示当前 Leader Node 元数据同步的最新日志id。该监控项的具体数据没有意义,只需查看各个 Leader Node 的最新日志id保持同步即可。
-
每秒查询数
显示每秒处理的查询量(QPS)。该数据仅统计通过 Mysql 协议连接并发起的查询请求数量。
-
每秒请求数
显示每秒处理的请求量(RPS)。该数据仅统计通过 Mysql 协议连接并发起的请求数量。请求包括查询、DDL、DML 等所有请求。
-
每秒查询错误数
显示每秒发生的错误查询的数量。该数据仅统计通过 Mysql 协议连接并发起的查询出现错误的数量。
-
JVM Old 区使用率
以百分比显示 JVM Old 区的使用率,数值越高,说明 JVM 内存使用量越高。
-
JVM Young 区使用率
以百分比显示 JVM Young 区的使用率。
Compute Node 独有监控指标
-
当前线程数
显示 Compute Node 中,进程的线程数。
-
文件句柄数
显示 Compute Node 中,进程所打开的文件句柄数。
-
写入速率
以字节显示每秒的写入速率。这里统计的是通过导入命令,实际写入到 Palo 中的数据写入速率。
-
读取速率
以字节显示每秒的读取速率。这里统计的是查询时产生的读取速率。
监控指标图例说明
以上图为例,显示了 Compute Node 的 CPU 使用率。多个 Compute Node 的监控指标会以不同颜色的线在图中显示。点击图例中对应的节点,则可以单独显示某一个节点的监控指标。监控页右上角还可以选择需要显示的时间段。
报警配置
当前我们只支持对 Leader Node 节点的监控指标进行报警配置。且当前需对各个 Leader Node 进行单独的报警配置。(Compute Node 报警配置以及按节点类型批量报警配置将在近期上线)
点击上图右侧的 报警详情 即可进入对应 Leader Node 的报警配置页面。
上图中的 绿/红/黄 分别表示当前已配置的各个报警项的状态。
点击 添加策略 开始添加一项报警策略。
以上图为例。上图中,我们配置了一个名为 cpu_alert
的报警策略。该策略设置为,当CPU使用率在10分钟内的平均值大于 70%,并且连续3次,则报警。报警方式是通过短信和邮件的形式通知报警对象。当指标恢复正常后,以邮件的形式通知报警对象。如果出现监控数据不足,则也会以邮件的形式通知报警对象。
设置完成报警策略后,如有触发报警,则会收到对应的通知,并且可以在 报警事件 中查看历史报警。
报警生效时间大约为 5 分钟。
Leader Node 报警策略实践
这里给出 Leader Node 的报警配置建议
-
CPU 使用率
按需。比如15分钟内的平均使用率大于90%,则报警。
-
磁盘空间使用率
建议当磁盘空间使用率大于80%,则报警。此时可能需要清理数据,或扩容。
-
内存使用率
按需。比如15分钟内的平均使用率大于80%,则报警。
-
当前连接数
Palo 默认单一用户对单一 Leader Node 的连接上限是 100。假设有 3个 Palo 用户,则单一 Leader Node 的连接数超过300,则会拒绝连接。这里可以根据用户数量,配置合理的报警策略。
-
每秒查询数
按需。根据业务使用设置合理的报警策略。
-
每秒请求数
按需。根据业务使用设置合理的报警策略。
-
每秒查询错误数
根据业务可容忍的数量设置。较为激进的情况,可以设置5分钟内求和大于0,则报警。
-
JVM Old 区使用率
建议设置当15分钟内,Old 区平均使用率大于75%,并连续2次后,报警。
-
JVM Young 区使用率
Young 区使用率没有实际报警意义。通常只需查看趋势即可。