监控指标说明

公共监控指标

Leader Node 和 Compute Node 都有以下公共的监控指标:

  1. CPU使用率

    以百分比显示CPU使用率,数值越高,表示CPU负载越高。

  2. 内存使用量

    以 GB 为单位显示内存使用量。

  3. 内存使用率

    以百分比显示内存使用率,数值越高,表示节点当前消耗内存越大。

  4. 磁盘空间使用量

    以 GB 为单位显示节点整体的磁盘使用量。

  5. 磁盘使用率

    以百分比显示节点整体的磁盘使用率。当前不支持显示单独某个磁盘的使用率。

  6. CPU Stolen

    以百分比显示 CPU stolen 的比率。该值高于 10%,则说明可能该节点的 CPU 资源可能被抢占严重。

Leader Node 独有监控指标

  1. 当前连接数

    显示当前通过 Mysql 端口连接到 Leader Node 的连接数。

  2. 当前元数据日志id

    显示当前 Leader Node 元数据同步的最新日志id。该监控项的具体数据没有意义,只需查看各个 Leader Node 的最新日志id保持同步即可。

  3. 每秒查询数

    显示每秒处理的查询量(QPS)。该数据仅统计通过 Mysql 协议连接并发起的查询请求数量。

  4. 每秒请求数

    显示每秒处理的请求量(RPS)。该数据仅统计通过 Mysql 协议连接并发起的请求数量。请求包括查询、DDL、DML 等所有请求。

  5. 每秒查询错误数

    显示每秒发生的错误查询的数量。该数据仅统计通过 Mysql 协议连接并发起的查询出现错误的数量。

  6. JVM Old 区使用率

    以百分比显示 JVM Old 区的使用率,数值越高,说明 JVM 内存使用量越高。

  7. JVM Young 区使用率

    以百分比显示 JVM Young 区的使用率。

Compute Node 独有监控指标

  1. 当前线程数

    显示 Compute Node 中,进程的线程数。

  2. 文件句柄数

    显示 Compute Node 中,进程所打开的文件句柄数。

  3. 写入速率

    以字节显示每秒的写入速率。这里统计的是通过导入命令,实际写入到 Palo 中的数据写入速率。

  4. 读取速率

    以字节显示每秒的读取速率。这里统计的是查询时产生的读取速率。

监控指标图例说明

以上图为例,显示了 Compute Node 的 CPU 使用率。多个 Compute Node 的监控指标会以不同颜色的线在图中显示。点击图例中对应的节点,则可以单独显示某一个节点的监控指标。监控页右上角还可以选择需要显示的时间段。

报警配置

当前我们只支持对 Leader Node 节点的监控指标进行报警配置。且当前需对各个 Leader Node 进行单独的报警配置。(Compute Node 报警配置以及按节点类型批量报警配置将在近期上线)

点击上图右侧的 报警详情 即可进入对应 Leader Node 的报警配置页面。

上图中的 绿// 分别表示当前已配置的各个报警项的状态。

点击 添加策略 开始添加一项报警策略。

以上图为例。上图中,我们配置了一个名为 cpu_alert 的报警策略。该策略设置为,当CPU使用率在10分钟内的平均值大于 70%,并且连续3次,则报警。报警方式是通过短信和邮件的形式通知报警对象。当指标恢复正常后,以邮件的形式通知报警对象。如果出现监控数据不足,则也会以邮件的形式通知报警对象。

设置完成报警策略后,如有触发报警,则会收到对应的通知,并且可以在 报警事件 中查看历史报警。

报警生效时间大约为 5 分钟。

Leader Node 报警策略实践

这里给出 Leader Node 的报警配置建议

  1. CPU 使用率

    按需。比如15分钟内的平均使用率大于90%,则报警。

  2. 磁盘空间使用率

    建议当磁盘空间使用率大于80%,则报警。此时可能需要清理数据,或扩容。

  3. 内存使用率

    按需。比如15分钟内的平均使用率大于80%,则报警。

  4. 当前连接数

    Palo 默认单一用户对单一 Leader Node 的连接上限是 100。假设有 3个 Palo 用户,则单一 Leader Node 的连接数超过300,则会拒绝连接。这里可以根据用户数量,配置合理的报警策略。

  5. 每秒查询数

    按需。根据业务使用设置合理的报警策略。

  6. 每秒请求数

    按需。根据业务使用设置合理的报警策略。

  7. 每秒查询错误数

    根据业务可容忍的数量设置。较为激进的情况,可以设置5分钟内求和大于0,则报警。

  8. JVM Old 区使用率

    建议设置当15分钟内,Old 区平均使用率大于75%,并连续2次后,报警。

  9. JVM Young 区使用率

    Young 区使用率没有实际报警意义。通常只需查看趋势即可。