资源池监控
更新时间:2026-04-16
百舸平台为全托管资源池提供了一套逐层下钻、全链路覆盖的监控体系。该体系旨在帮助您从宏观到微观全面掌握资源状态,快速定位性能瓶颈,并优化任务调度策略。
监控体系概览
我们的监控体系遵循从整体到局部的逻辑,共分为四个层级,助您高效运维:
- 资源池层:宏观审视整体算力、存储及网络资源的使用情况,把握全局健康度。
- 队列层:深入分析特定队列的资源利用率与负载排队状况,为调度策略优化提供数据支撑。
- 节点层:精准监控单个物理节点的CPU、内存、加速卡等核心指标,快速排查性能瓶颈。
- 负载联动:结合工作负载视图,可筛选特定队列任务,并支持手动终止低优先级任务,以保障高优先级任务的快速调度。

资源池与队列监控指标
资源池与队列监控面板提供实时与历史维度的关键指标,帮助您掌握资源运行状态、识别潜在瓶颈。
| 指标分类 | 监控指标 | 指标含义 |
|---|---|---|
| 节点使用情况(实时) | 总节点数 | 当前资源池/队列中包含的物理节点总数。 |
| 不可用节点数 | 因故障、维护或被封锁而处于不可调度状态的节点数量。队列维度该数值直接影响队列的最大可用资源上限。 | |
| 加速卡概览(实时) | 总卡数 | 资源池/队列内所有节点上加速卡(如GPU)的物理总数。 |
| 分配量 | 当前已被任务占用的加速卡数量(包含部分分配的情况),直接反映资源的实际使用压力。 | |
| 不可用卡数 | 因节点故障或硬件异常导致无法被使用的加速卡数量。 | |
| 资源利用率(平均值) | 加速卡利用率 | 加速卡计算核心的平均使用率,是衡量算力负载水平的关键指标。 |
| 显存利用率 | 加速卡显存的平均占用比例,用于评估内存密集型任务带来的资源压力。 | |
| CPU利用率 | 节点CPU核心的平均使用率,辅助判断计算瓶颈是否位于CPU侧。 | |
| 内存利用率 | 节点系统内存的平均占用比例,用于评估任务内存需求与节点容量的匹配度。 | |
| 趋势分析 | 卡分配量趋势 | 展示加速卡分配数量随时间的变化趋势。 |
| 卡分配率趋势 | 展示已分配卡数占总卡数的比例随时间的变化趋势。 | |
| 卡算力利用率趋势 | 展示加速卡算力利用率随时间的变化曲线。 | |
| 卡显存利用率趋势 | 展示加速卡显存平均利用率随时间的变化曲线。 | |
| 空闲节点统计 | 空闲整卡节点分布(实时) | 按空闲卡数(0至8卡)统计当前完全空闲的节点数量,用于评估可调度资源的碎片化程度。 |
| 空闲整卡节点分布趋势 | 展示空闲节点分布随时间的变化,帮助您预测资源释放节奏与最佳调度窗口。 | |
| PFS存储监控(资源池维度独有) | 总容量 & 已使用 | 展示各PFS实例的总存储容量与实际使用容量。 |
| 读写吞吐 | 展示各PFS实例的单位时间读写数据量(读/写吞吐速率)。 |
节点监控指标
节点监控提供单台物理节点的详细运行数据,是进行深度问题排查的核心工具。
| 指标分类 | 监控指标 | 指标含义 |
|---|---|---|
| 资源分配详情 | 加速卡/CPU/内存分配量 | 当前节点已分配资源量与节点资源总量的对比。 |
| 资源利用率(平均值&趋势图) | 加速卡利用率 | 时间范围内加速卡的平均利用率&趋势图。 |
| 显存利用率 | 时间范围内显存的平均利用率趋势图。 | |
| CPU利用率 | 时间范围内CPU的平均利用率趋势图。 | |
| 内存利用率 | 时间范围内内存的平均利用率趋势图。 | |
| 硬件健康度 | 卡功耗 (W) | 时间范围内GPU加速卡的功耗趋势图。 |
| 卡温度 | 时间范围内GPU加速卡的温度趋势图。 | |
| 网络&磁盘 | 网络收发数据量 | 单位时间内网络数据的接收与发送量趋势图 |
| 磁盘读写数据量 | 单位时间内磁盘数据的读取与写入量趋势图 | |
| 磁盘读/写IO速率 | 单位时间内磁盘的读取/写入操作速率趋势图 |
队列工作负载
资源池监控可以与工作负载联动分析:结合队列工作负载查看功能,筛选特定队列的负载,手动终止低优任务,加速高优任务调度。
更多队列工作负载的介绍请参考相关文档

评价此篇文章
