监控查看及指标说明
百度智能云Elasticsearch 对运行中的 BES 集群,提供了多项监控指标,用以监测集群的运行情况。用户可以根据这些指标实时了解集群服务的运行状况,针对可能存在的风险及时处理,保障集群的稳定运行。本文为您介绍通过 BES 控制台查看集群监控的操作。
操作步骤
1.登录百度智能云 Elasticsearch 控制台。
2.在集群列表中点击目标集群ID。
3.在集群信息页左侧的导航栏中选择监控。
BES提供两大类指标,集群监控指标和节点监控指标。默认展示集群监控指标。可以查看集群整体运行情况。上方tab可切换为节点监控指标,查看集群内各节点的运行情况和性能指标。
集群监控
在集群监控页,可以看到集群的监控数据信息,可通过选择不同的时间范围查看集群基础指标、集群性能指标和负载均衡指标。
集群基础指标:集群健康状态、集群总分片数、集群数据节点平均分片数、集群未分配分片数。
集群性能指标:集群写入QPS、集群查询QPS、集群写入增量、集群查询增量、集群平均写入耗时、集群平均查询耗时。
负载均衡端口指标:负载均衡服务端口健康检查、负载均衡服务端口网络流量、负载均衡服务端口网络数据包和负载均衡服务端口并发连接数。
页面右上角可跳转到BCM进行告警策略设置。
节点监控
节点列表
展示集群各个节点基本信息和部分运行指标。
操作列【报警详情】按钮,点击跳转BCM配置对应节点的告警策略配置。
节点状态指标
节点列表页,点击节点ID,进入监控指标页,查看节点各项指标的详细运行情况。包括服务器性能指标和节点性能指标。
支持选择不同的相对和绝对时间范围、节点ID和节点类型查看指标。
服务器性能指标:CPU使用率、内存使用量、磁盘空间使用量、磁盘使用率、磁盘写iops、磁盘读iops、磁盘写流量、磁盘读流量、load_1m、IO Util(平均值和最大值)。
节点性能指标:JVM年轻代使用率、JVM老年代使用率、FullGC次数、Field Data内存使用、search线程池队排队任务数、write线程池队排队任务数、request cache、query cache、HeapMemory使用率、段内存
部分指标含义及说明
集群指标和节点指标分开说明。
集群指标说明
指标的统计周期均为60秒,即每60秒对集群的指标采集1次。具体各指标含义说明如下:
指标名称 | 指标说明 |
---|---|
集群健康状态 | BES集群发健康状态。 1表示green,表示所有的主分片和副本分片都可用,集群处于最健康状态; 0表示yellow, 表示所有的主分片均可用,但部分副本分片未分配(unassigned)。此时搜索结果仍然是完整的。但集群的高可用性在一定程度上受到影响。在集群健康状态变为 yellow 后,建议及时调查和定位问题,并修复,防止数据丢失; -1表示red,集群异常状态,表示该集群中某个或某几个索引的主分片未分配(unassigned)。在集群健康状态变为 red 后,应及时定位异常分片,并进行修复。 |
集群总分片数 | BES集群已分配shard总数。 |
集群数据节点平均分片数 | BES集群已分配shard总数/数据节点总数。阈值由用户自行设定,建议不超过1000,超过阈值后请及时清理数据。 |
集群未分配分片数 | BES集群未分配的分片总数。 |
集群写入QPS | BES集群在统计周期内(60秒)每秒写入文档的数量的平均值。 如果在1秒内,客户端向BES集群发送1个文档的写入请求,对应写入QPS为1。 |
集群查询QPS | BES集群在统计周期内(60秒)每秒query的数量的平均值。查询QPS数量与待查询索引的分片个数有关,客户端的1个查询可能涉及多个分片。 如果在1秒内,客户端向BES集群发送1个查询请求,被查询的分片有3个,对应查询query的QPS为3。 |
集群平均写入耗时 | BES集群在统计周期内(60秒)所有节点单次 index 请求耗时的平均值 |
集群平均查询耗时 | BES集群在统计周期内(60秒)所有节点单次查询请求耗时的平均值。 |
集群写入增量 | BES集群在统计周期内(60秒)写入文档的增加的数量。集群写入增量和副本数相关。 如果用户设置1个副本,在60秒内,客户端共向BES集群发送1个文档的写入请求,对应写入增量为2. |
集群查询增量 | BES集群群在统计周期内(60秒)查询query的数量。集群查询增量与待查询索引的分片个数有关,客户端的1个查询可能涉及多个分片。 如果在60秒内,客户端共向BES集群发送1个查询请求,被查询的分片有3个,对应查询query增量为3。 |
负载均衡服务端口健康检查 | 包含3个指标,该集群的负载均衡(BLB)实例总数、正常实例数和异常实例数量。 |
负载均衡服务端口网络流量 | 包含2个指标,负载均衡端口的网络输入流量和网络输出流量。可参考业务实际流量对指标进行观测。 |
负载均衡服务端口网络数据包 | 包含2个指标,负载均衡端口的输入数据包数和输出数据包数。可参考业务收发数据包数量对指标进行观测。 |
负载均衡服务端口并发连接数 | BES负载均衡端口的并发连接数。 |
节点指标说明
指标的统计周期均为60秒,即每60秒对集群的指标采集1次。具体各指标含义说明如下:
指标名称 | 指标说明 |
---|---|
CPU使用率 | 统计周期内(60秒),节点的CPU使用率百分比。当CPU使用率较高(85%)时,会影响集群服务。 |
内存使用量 | 统计周期内(60秒),节点的内存(mem)使用量。 |
磁盘空间使用量 | 统计周期内(60秒),节点的磁盘使用量。 |
磁盘空间使用率 | 统计周期内(60秒),节点的磁盘使用率。建议将磁盘使用率报警阈值控制在75%以下,不要超过85%。否则新的分片可能会无法分配,影响集群服务。 |
磁盘写iops | 统计周期内(60秒),磁盘每秒io写次数(次/秒) |
磁盘读iops | 统计周期内(60秒),磁盘每秒io读次数(次/秒) |
磁盘写流量 | 统计周期内(60秒),磁盘每秒io写速率(Kb/秒) |
磁盘读流量 | 统计周期内(60秒),磁盘每秒io读速率(Kb/秒) |
load_1m | 在统计周期内(60秒),节点在1分钟内的负载情况,表示各节点的系统繁忙程度。该指标的正常数值,应该低于对应节点规格的CPU核数。load_1m 过高时,建议降低集群负载或调大集群节点规格。 |
IO Util | 统计周期内(60秒),节点的IO使用率。此指标提供平均值和最大值,平均值表示60秒内节点IO使用率的平均值,最大值表示60秒内节点IO使用率的最大值。默认展示平均值,可切换成最大值。建议将报警阈值设置在90%。此指标的最大值可能出现毛刺现象,建议拉长报警间隔,持续观测。 |
JVM年轻代使用率 | 统计周期内(60秒),节点的 JVM 年轻代内存使用率。 |
JVM老年代使用率 | 统计周期内(60秒),节点的 JVM 老年代内存使用率。 |
FullGC次数 | 统计周期内(60秒),节点的gc总次数。 |
Field Data内存使用 | 统计周期内(60秒),节点的fielddata内存占用情况,监控曲线越高,说明堆内存存在大量的fielddata数据缓存,过大的fielddata内存占用会触发fielddata内存熔断,影响集群稳定性。 |
search线程池队排队任务数 | 统计周期内(60秒),write线程池中的队列数。 |
write线程池队排队任务数 | 统计周期内(60秒),search线程池中的队列数。 |
request cache | 统计周期内(60秒),request 缓存大小。 |
query cache | 统计周期内(60秒),query 缓存大小。 |
HeapMemory使用率 | 统计周期内(60秒),节点的HeapMemory使用率百分比。当HeapMemory使用率较高或存在较大的内存对象时,会影响集群服务,也会自动触发gc操作。建议报警阈值为75%。 |
段内存 | 统计周期内(60秒),为了提高搜索效率而缓存在内存中的段的数据。建议报警阈值为(堆内存 * 30%)。 |