监控与报警
更新时间:2024-06-19
查看集群监控
1.选择对应集群名称进入集群管理,从侧边导航找到监控并单击即可查看集群各项指标监控信息。Palo 根据节点类型的不同,展示不同的监控项。
2.用户可以先在节点类型中选择 Leader Node 或 Compute Node,在监控对象中勾选希望查看的实例(最多勾选10个),然后选择相关的监控项进行查看。
监控指标说明
表一 公共指标说明
指标项 | 指标说明 |
---|---|
CPU使用率 | 以百分比显示CPU使用率,数值越高,表示CPU负载越高 |
内存使用量 | 以 GB 为单位显示内存使用量 |
内存使用率 | 以百分比显示内存使用率,数值越高,表示节点当前消耗内存越大 |
磁盘空间使用量 | 以 GB 为单位显示节点整体的磁盘使用量 |
磁盘使用率 | 以百分比显示节点整体的磁盘使用率。当前不支持显示单独某个磁盘的使用率 |
CPU Stolen | 以百分比显示 CPU stolen 的比率。该值高于 10%,则说明可能该节点的 CPU 资源可能被抢占严重 |
表二 Leader Node 独有监控指标
指标项 | 指标说明 |
---|---|
当前连接数 | 显示当前通过 Mysql 端口连接到 Leader Node 的连接数 |
当前元数据日志id | 显示当前 Leader Node 元数据同步的最新日志id。该监控项的具体数据没有意义,只需查看各个 Leader Node 的最新日志id保持同步即可 |
每秒查询数 | 显示每秒处理的查询量(QPS)。该数据仅统计通过 Mysql 协议连接并发起的查询请求数量 |
每秒请求数 | 显示每秒处理的请求量(RPS)。该数据仅统计通过 Mysql 协议连接并发起的请求数量。请求包括查询、DDL、DML 等所有请求 |
每秒查询错误数 | 显示每秒发生的错误查询的数量。该数据仅统计通过 Mysql 协议连接并发起的查询出现错误的数量 |
JVM Old 区使用率 | 以百分比显示 JVM Old 区的使用率,数值越高,说明 JVM 内存使用量越高 |
JVM Young 区使用率 | 以百分比显示 JVM Young 区的使用率 |
表三 Compute Node 独有监控指标
指标项 | 指标说明 |
---|---|
当前线程数 | 显示 Compute Node 中,进程的线程数 |
文件句柄数 | 显示 Compute Node 中,进程所打开的文件句柄数 |
写入速率 | 以字节显示每秒的写入速率。这里统计的是通过导入命令,实际写入到 Palo 中的数据写入速率 |
读取速率 | 以字节显示每秒的读取速率。这里统计的是查询时产生的读取速率 |
监控指标图例说明
根据选择的监控指标会以图例的方式进行展示和查看,不同的监控指标会以不同的颜色在图例中显示。点击图例中对应的节点,则可以单独显示某一个节点的监控指标。监控页右上角还可以选择需要显示的监控时间范围。
图一 监控指标图例
集群告警
报警配置
报警配置在监控界面的监控信息右上角的报警详情,即跳转到报警配置界面。进入报警配置界面,点击添加策略根据需要配置报警策略,同时选择报警方式。设置完成报警策略后,如有触发报警,则会收到对应的通知,并且可以在报警通知中查看历史报警。
注意,报警生效时间大约为5分钟。
图一 报警配置入口
Leader Node 报警策略实践
表一 Leader Node 的报警配置说明
配置项 | 配置说明 |
---|---|
CPU 使用率 | 按需。比如15分钟内的平均使用率大于90%,则报警 |
磁盘空间使用率 | 建议当磁盘空间使用率大于80%,则报警。此时可能需要清理数据,或扩容 |
内存使用率 | 按需。比如15分钟内的平均使用率大于80%,则报警 |
当前连接数 | Palo 默认单一用户对单一 Leader Node 的连接上限是 100。假设有 3个 Palo 用户,则单一 Leader Node 的连接数超过300,则会拒绝连接。此处可以根据用户数量,配置合理的报警策略 |
每秒查询数 | 按需。根据业务使用设置合理的报警策略 |
每秒请求数 | 按需。根据业务使用设置合理的报警策略 |
每秒查询错误数 | 根据业务可容忍的数量设置。较为激进的情况,可以设置5分钟内求和大于0,则报警 |
JVM Old 区使用率 | 建议设置当15分钟内,Old 区平均使用率大于75%,并连续2次后,报警 |
JVM Young 区使用率 | Young 区使用率没有实际报警意义。通常只需查看趋势即可 |