AI Job Scheduler组件
更新时间:2024-06-21
AI Job Scheduler组件,包含关键指标总览、队列排队总览、集群/队列超限总览、Pod调度性能总览、任务调度性能总览、调度器调度阶段延迟总览。
前提条件
- 已安装CCE AI Job Scheduler组件且版本 >= 1.7.9
- 已接入监控实例
- 需启用采集任务,具体参考文档:接入监控实例并启用采集任务
使用方法
- 登录容器引擎CCE控制台。
- 点击左侧集群管理,在集群列表中选择您需要的集群名称,在右侧操作>更多中点击Prometheus监控,即可跳转至Prometheus监控服务。
- 在Prometheus监控页面下方选项中选择云原生AI监控,随后选择AI Job Scheduler组件。
AI Job Scheduler组件如图所示
您可以点击右上角按钮,自行设定监控时间、手动刷新、自动刷新。
AI Job Scheduler组件具体说明
组件健康度总览
监控项 | 说明 |
---|---|
调度器实例数 | AI Job Scheduler Pod实例数,默认为3副本。 指标异常:调度器实例数为1-3为正常,为0为异常。 |
CPU利用率 | AI Job Scheduler master实例的CPU利用率 |
内存占用量 | AI Job Scheduler master实例的内存占用量 |
Pod 调度吞吐 CPM (次数/分钟) | 调度器每分钟调度的Pod个数 |
任务调度吞吐 CPM (次数/分钟) | 调度器每分钟调度的任务个数 |
待调度Pod/任务排队总览
监控项 | 说明 |
---|---|
集群调度排队情况 | 集群中调度任务排队情况,展示了集群待调度任务数、集群排队任务数、集群调度总任务数、集群Pending Pod数、集群任务排队率。 |
集群卡分配情况 | 集群中GPU卡分配情况,展示了GPU总卡数、已分配GPU卡数、空闲GPU卡数、不可用GPU卡数、GPU卡分配率。 |
集群待调度Pod/任务趋势图 | 详细的集群中待调度Pod/任务趋势,展示了待调度Pod数、待调度任务数、排队任务数、总任务数等数据的排队任务率。 |
卡分配率 | 详细的集群中GPU卡分配率。 |
任务重试调度次数 | 调度器持续调度任务的次数,还包含任务类型、任务名称、命名空间、排队状态。 |
Pod/任务调度性能总览
监控项 | 说明 |
---|---|
任务调度延迟 | 从任务创建时间开始,至任务调度完成的时间 |
Pod 总调度延迟 | 从pod创建时间开始,至pod调度完成的时间 |
调度延迟action总览
监控项 | 说明 |
---|---|
调度器各阶段延迟分布 | 调度器各阶段延迟分布范围 |
Pod 调度延迟 | 从pod调度算法+绑定阶段时间之和 |
调度器各阶段延迟 | 调度器各个调度阶段的调度时间 |