集群监控
集群监控提供对集群、计算组、业务多维度指标可视化能力,可在控制台查看当前连接数、数据分片合并情况等数据,帮助您实时掌握集群负载情况、排查异常并优化服务性能。
前提条件
已创建存算分离集群。
查看集群监控
- 登录数据仓库 PALO 控制台,选择侧边导航存算分离集群。
- 在集群管理列表单击集群名称进入集群详情,选择侧边导航集群监控。
- 默认是进入集群监控页签,查看各项指标数据。图表支持悬停查看详细数值。
- 单击右侧指标筛选,可按需勾选需要查看的指标。以下为各指标的详细说明,帮助您理解数据含义、定位集群运行问题:
基础监控
| 指标名称 |
说明 |
| 当前连接数 |
Leader Node实例CPU资源使用占比,反映计算资源负载情况。 |
| 数据分片合并情况 |
数据分片合并操作的执行状态与频次,关联集群数据整理效率。 |
| Broker异常个数 |
Leader Node实例内存资源使用占比,反映内存资源消耗情况。 |
| ComputeNode异常个数 |
集群中处于异常状态的ComputeNode数量,反映计算层服务健康状况,用于监控计算资源可用性。 |
| LeaderNode异常个数 |
Leader Node实例磁盘空间使用占比,用于监控存储容量是否充足。 |
| 远程存储读次数(QPS) |
单位时间内对远程对象存储的读取请求次数,反映后端存储读取压力,用于评估存储访问性能。 |
| 远程存储写次数(QPS) |
单位时间内对远程对象存储的写入请求次数,反映后端存储写入压力,用于监控数据写入负载。 |
| 缓存命中率 |
连接到Leader Node的客户端连接数量,反映业务访问压力。 |
| 对象存储容量 |
数据分片合并操作的执行状态与频次,关联集群数据整理效率。 |
查询监控
| 指标名称 |
说明 |
| 查询平均耗时 |
单位时间内所有SQL查询的平均执行耗时。 |
| 查询延时99分位数 |
99%的查询请求耗时低于该值。 |
| 累计操作请求数 |
集群自启动以来累计接收的所有操作请求总数。 |
| 每秒查询错误数 |
单位时间内执行失败的SQL查询请求数量。 |
| 每秒请求数 |
单位时间内集群接收的总请求数量。 |
| 当前元数据日志id |
集群当前最新的元数据操作日志 ID。 |
| 每秒查询数 |
单位时间内集群处理的SQL查询请求数量。 |
导入任务监控
| 指标名称 |
说明 |
| Routine Load 的行数 |
Routine Load任务累计成功导入的数据总行数。 |
| Routine Load 错误的行数 |
Routine Load任务执行过程中导入失败的数据总行数。 |
| Running状态Rollup任务数 |
当前处于运行中状态的Rollup任务数量。 |
| Running状态SchemaChange任务数 |
当前处于运行中状态的Schema Change任务数量。 |
| Pending状态Spark导入任务数 |
当前处于等待执行状态的Spark导入任务数量。 |
| Loading状态Spark导入任务数 |
当前处于数据加载中状态的Spark导入任务数量。 |
| Pending状态Insert导入任务数 |
当前处于等待执行状态的Insert导入任务数量。 |
| Loading状态Insert导入任务数 |
当前处于数据加载中状态的Insert导入任务数量。 |
| Finished状态Insert导入任务数 |
当前处于执行完成状态的Insert导入任务数量。 |
| Cancelled状态Insert导入任务数 |
当前处于已取消状态的Insert导入任务数量。 |
| Pending状态Broker导入个数 |
当前处于等待执行状态的Broker导入任务数量。 |
| Finished状态Broker导入个数 |
当前处于执行完成状态的Broker导入任务数量。 |
| Loading状态Broker导入个数 |
当前处于数据加载中状态的Broker导入任务数量。 |
| Cancelled状态Broker导入个数 |
当前处于已取消状态的Broker导入任务数量。 |
| NeedSchedule状态Routine导入个数 |
当前处于待调度状态的Routine Load任务数量。 |
| Running状态Routine导入个数 |
当前处于运行中状态的Routine Load任务数量。 |
| Paused状态Routine导入个数 |
当前处于暂停状态的Routine Load任务数量。 |
| Stopped状态Routine导入个数 |
当前处于已停止状态的Routine Load任务数量。 |
| Cancelled状态Routine导入个数 |
当前处于已取消状态的Routine Load任务数量。 |
调度与事务数量监控
| 指标名称 |
说明 |
| 失败的事务数量 |
集群中执行失败的事务总数。 |
| 被拒绝的事务数量 |
因权限不足、资源超限、规则校验不通过等原因被集群拒绝的事务数量。 |
| Master节点正在调度的Tablet数量 |
Master节点当前正在调度的Tablet数量。 |
| 开始的事务数量 |
集群中已发起的事务总数。 |
| 成功的事务数量 |
集群中执行成功的事务总数。 |
| ComputeNode定期汇报任务在 LeaderNode端的队列长度 |
ComputeNode向LeaderNode上报状态的定期任务在Leader端的排队长度。 |
| Tablet Compaction 最高分 |
Tablet数据分片Compaction任务的最高优先级。 |
| 处于Unknown状态的事务个数 |
当前状态未知的事务数量。 |
| 处于Prepare状态的事务个数 |
当前处于Prepare阶段的事务数量。 |
| 处于Committed状态的事务个数 |
当前处于Committed阶段的事务数量。 |
| 处于Visible状态的事务个数 |
当前处于Visible阶段的事务数量。 |
| 处于Aborted状态的事务个数 |
当前处于Aborted状态的事务数量。 |
| 处于Precommitted状态的事务个数 |
当前处于Precommitted阶段的事务数量。 |
元数据监控
| 指标名称 |
说明 |
| 元数据日志写入次数 |
单位时间内元数据日志的写入操作次数。 |
| 元数据日志读取次数 |
单位时间内元数据日志的读取操作次数。 |
| 元数据日志当前大小 |
元数据日志文件的当前总大小。 |
| 元数据日志写入延迟的99分位统计 |
99%的元数据日志写入操作耗时低于该值。 |
| 清理历史元数据日志成功次数 |
历史元数据日志清理操作的成功次数。 |
| 清理历史元数据日志失败次数 |
历史元数据日志清理操作的失败次数。 |
| 清理历史元数据镜像文件成功次数 |
历史元数据镜像文件清理操作的成功次数。 |
| 清理历史元数据镜像文件失败次数 |
历史元数据镜像文件清理操作的失败次数。 |
| 将元数据镜像文件推送给其他FE节点的失败次数 |
元数据镜像文件向其他FE节点同步推送的失败次数。 |
| 将元数据镜像文件推送给其他FE节点的成功次数 |
元数据镜像文件向其他FE节点同步推送的成功次数。 |
| 生成元数据镜像文件成功次数 |
元数据镜像文件生成操作的成功次数。 |
| 生成元数据镜像文件失败次数 |
元数据镜像文件生成操作的失败次数。 |
查看计算组监控
- 登录数据仓库 PALO 控制台,选择侧边导航存算分离集群。
- 在集群管理列表单击集群名称进入集群详情,选择侧边导航集群监控。
- 单击计算组监控页签,查看各项指标数据。图表支持悬停查看详细数值。以下为各指标的详细说明,帮助您理解数据含义、定位集群运行问题:
基础监控
| 指标名称 |
说明 |
| CPU使用率 |
节点CPU资源的使用比例。 |
| CPU抢占率 |
节点CPU资源被抢占的比例。 |
| 内存使用率 |
节点内存资源使用比例。 |
| 内存使用量 |
节点实际占用的内存大小。 |
| 磁盘空间使用率 |
节点磁盘空间已使用比例。 |
| 磁盘空间使用量 |
节点磁盘已占用的存储空间大小。 |
| 磁盘IO利用率 |
磁盘I/O资源使用比例。 |
| 数据盘最大使用率 |
集群内数据盘的最高使用率。 |
| Memory Allocated大小 |
已分配给服务进程使用的内存大小。 |
| 进程文件句柄 Soft 限制数量 |
进程文件句柄的软限制阈值。 |
| 磁盘的剩余空间 |
磁盘当前可用的剩余存储空间。 |
| 网络最大接收速率 |
单位时间内网络接收的最大流量速率。 |
| 网络最大发送速率 |
单位时间内网络发送的最大流量速率。 |
| 各个网卡的发送字节累计值 |
各网卡自启动以来累计发送的总字节数。 |
| 各个网卡的接收字节累计值 |
各网卡自启动以来累计接收的总字节数。 |
| 进程使用文件句柄数量 |
当前进程已使用的文件句柄数量。 |
| 进程运行的线程个数 |
当前服务进程正在运行的线程总数。 |
| S3FileReader 读取字节数累计值 |
通过S3FileReader读取的字节总数。 |
| 上传到远端存储成功的Rowset数据量累计值 |
成功上传至远端存储的Rowset数据总大小。 |
| 上传到远端存储成功的Rowset的次数累计值 |
成功上传至远端存储的Rowset总次数。 |
| 上传到远端存储失败的Rowset的次数累计值 |
上传至远端存储失败的Rowset总次数。 |
数据导入及写入
| 指标名称 |
说明 |
| 导入速度 |
单位时间内导入的数据量或行数。 |
| 导入数据量 |
累计导入的数据量。 |
| Stream Load 接收的字节数累计值 |
通过Stream Load方式接收到的总数据字节数。 |
| Stream Load 最终导入的行数累计值 |
Stream Load成功写入并生效的数据总行数。 |
| Stream Load 作业导入频率 |
单位时间内执行的Stream Load导入作业次数。 |
| Push请求写入行数累计值 |
通过Push方式写入请求成功的数据行数总和。 |
| Push请求成功次数累计值 |
Push写入请求的成功执行总次数。 |
| Push请求失败次数累计值 |
Push写入请求的失败总次数。 |
| Push请求耗时累计 |
所有Push写入请求的耗时总和。 |
查询监控
| 指标名称 |
说明 |
| 读取行数的数量 |
单次或累计查询从存储层读取的数据总行数。 |
| Query Cache 占用字节数 |
Query Cache已使用的内存字节大小。 |
| 读取数据速率 |
单位时间内查询读取的数据量大小。 |
| 当前 Partition Cache 缓存个数 |
当前Partition Cache中缓存的分区数量。 |
| 当前 SQL Cache 缓存个数 |
当前SQL Cache中缓存的查询结果条数。 |
任务信息监控
| 指标名称 |
说明 |
| Publish任务总累计值 |
数据发布类任务执行的总次数。 |
| Publish任务失败累计值 |
数据发布任务执行失败的总次数。 |
| FinishTask任务总累计值 |
任务完成收尾操作的总执行次数。 |
| FinishTask任务失败累计值 |
任务收尾过程中执行失败的次数。 |
| Delete任务总累计值 |
数据删除类任务执行的总次数。 |
| Delete任务失败累计值 |
数据删除任务执行失败的总次数。 |
| BaseCompaction任务总累计值 |
基础数据分片合并任务执行总次数。 |
| BaseCompaction任务失败累计值 |
基础分片合并任务失败次数。 |
| CumulativeCompaction任务总累计值 |
增量数据分片合并任务执行总次数。 |
| CumulativeCompaction任务失败累计值 |
增量分片合并任务失败次数。 |
| Clone任务总累计值 |
数据分片副本克隆任务执行总次数。 |
| Clone任务失败累计值 |
分片克隆失败次数。 |
| CreateRollup任务总累计值 |
预聚合索引创建任务总执行次数。 |
| CreateRollup任务失败累计值 |
Rollup创建任务失败次数。 |
| SchemaChange任务总累计值 |
表结构变更任务执行总次数。 |
| SchemaChange任务失败累计值 |
表结构变更失败次数。 |
| CreateTablet任务总累计值 |
数据分片创建任务总执行次数。 |
| CreateTablet任务失败累计值 |
分片创建失败次数。 |
| Base compaction 的数据量 |
基础合并任务处理的数据总大小。 |
| Cumulative compaction 的数据量 |
增量合并任务处理的数据总大小。 |
查看业务监控
- 登录数据仓库 PALO 控制台,选择侧边导航存算分离集群。
- 在集群管理列表单击集群名称进入集群详情,选择侧边导航集群监控。
- 单击业务监控页签,查看各项指标数据。图表支持悬停查看详细数值。以下该指标的详细说明,帮助您理解数据含义、定位集群运行问题:
业务指标监控
| 指标名称 |
说明 |
| 慢查询数 |
执行耗时超过阈值的查询数量。 |