资源报表
更新时间:2026-04-10
概述
随着业务规模的扩大,精细化管理GPU资源、评估投入产出比(ROI)成为各团队的迫切需求。为了帮助您更好地掌握资源使用情况,识别低效任务,优化调度策略,机器学习平台推出了资源报表功能。
该功能旨在提供按“人/团队+时间段”维度的卡时统计与资源利用率分析,辅助您进行成本分摊、预算决策及资源优化。
适用范围与权限
-
适用场景
- 本功能适用于全托管资源池与自运维资源池。
-
访问权限
- 仅资源池管理员及拥有平台全控权限(AIHCFullControlPolicy)的管理员可见并使用该功能。
-
前置依赖
- 使用该功能需满足以下条件,否则可能无法生成数据或数据存在延迟:
-
调度器版本: 需升级至支持资源报表的最新调度器版本。
- 注:若版本过低,页面将提示升级。全托管客户需联系百舸技术支持;自运维客户需前往CCE云维与管理的组件管理中心升级 Kube-Scheduler。
-
监控实例: 资源池必须关联有效的 CProm 监控实例。
- 注:若未关联CProm,将无法更新最新数据。
报表数据说明
数据时效性
- 数据延迟: 报表数据采用T+1模式生成。即每日凌晨生成前一天的数据,您在当天无法查看当天的实时数据。
-
数据可见性起点: 报表数据的可见范围始于以下三个事件中发生最晚的时刻:
- 平台功能正式上线时间。
- 调度器版本升级完成时间。
- CProm实例关联成功时间。
- 特殊情况: 若资源池近期发生过CProm实例切换或实例故障,受影响日期的统计数据可能存在偏差,仅供参考。
统计范围与粒度
- 统计粒度: 天级别统计。
- 时间跨度: 支持查询最近1年的数据。支持快捷筛选(近7天、近30天、本月)及自定义月份查询。
- 任务类型覆盖: 涵盖开发机、训练任务、推理服务。
- 历史数据处理: 即使任务已被删除,或队列已被销毁,其在历史时间段内产生的资源消耗数据仍会被计入统计。
核心指标定义
本章节详细定义了报表中涉及的关键指标,确保您对数据的理解准确无误。
资源池维度报表
聚合该资源池下所有队列的全量负载数据。
| 指标名称 | 定义说明 | 计算逻辑 |
|---|---|---|
| 总占用卡时 | 反映资源池的真实负载总量。 | ∑(单个任务占用GPU数 × 实际运行时长) 注:支持按开发/训练/推理类型拆解 |
| GPU/显存平均利用率 | 反映资源池的整体利用效率。 | 统计周期内,所有占用GPU卡的任务运行中的平均利用率。注:支持按负载类型(开发机 / 训练 / 推理)分别查看GPU利用率与显存利用率。 |
队列(团队)维度报表
聚合该队列下所有负载类型及所有用户的执行数据。
| 指标名称 | 定义说明 | 计算逻辑 |
|---|---|---|
| 队列总占用卡时 | 该队列被实际消耗的资源总量。 | ∑(本队列所有任务占用GPU数 × 运行时长) |
| 队列GPU/显存利用率 | 该队列资源的使用强度。 | 统计周期内,仅针对队列中所有占用GPU卡的任务运行中的平均利用率。 |
用户维度报表
统计指定用户在某个队列中发起的所有负载任务数据。
| 指标名称 | 定义说明 | 计算逻辑 |
|---|---|---|
| 用户总占用卡时 | 指定用户在时间窗口内的资源消耗。 | ∑(用户所有任务占用GPU数 × 运行时长) |
| 用户GPU/显存利用率 | 该用户的任务平均利用水平。 | 该用户所有任务“实际运行期间”,其占用资源的平均利用率。 |
使用说明
-
页面入口
- 登录机器学习平台控制台,进入资源池详情页,点击顶部导航栏中的【资源报表】Tab页。
-
时间筛选
- 您可以通过顶部的时间选择器筛选数据。
- 支持维度: 近7天、近30天、本月,或自定义选择月份(单选)。
- 建议: 为了保证查询性能与数据准确性,单次查询跨度建议不超过3个月。
-
数据导出
- 报表支持将当前页面展示的数据导出为本地文件,便于您进行线下存档或进一步分析。
评价此篇文章
