碎片治理
所有文档
menu

百舸异构计算平台 AIHC

碎片治理

概述

为优化资源利用率并降低计算成本,您可以开启百舸碎片治理功能,有效解决分布式训练、小规模推理等场景下的非整机任务导致的资源碎片问题,实现资源高效回收与复用。

前提条件

在 CCE 组件管理页面,选择云原生 AI 栏目,CCE Al Job Scheduler、CCE Deep Learning Frameworks Operator 组件版本按照下图升级到最新版本,以使用碎片治理功能。

c18ecb1971a149f92825724298c2caa8.png

功能说明

碎片诊断

  1. 诊断工作负载:分布式训练任务和自定义服务部署。
  2. 诊断输入:物理队列和节点,支持对指定物理队列或节点进行碎片诊断(仅支持治理含加速芯片的队列和节点),定位碎片资源分布情况。
  3. 不可治理的原因:

    • 关联分析任务已不存在
    • 任务关闭重调度
    • 预调度失败
    • 达到任务最低保障副本
    • 单负载的工作负载
    • 无工作负载管理的Pod
    • 关联Pod已不存在
    • 错误的整理类型
    • 推理服务摘流失败
    • 推理服务终止失败
    • 该Pod已在重调度中,重复的重调度
    • Pod迁移失败
    • 该工作负载已达到最大pod迁移数

碎片治理

诊断完成后,可以基于诊断结果进行碎片治理:

image.png

操作步骤

  1. 登录百舸异构计算平台AIHC控制台
  2. 在左侧菜单栏选择通用资源池,找到您想要查看的资源池名称,单击ID。
  3. 单击全局配置页面,打开碎片诊断与治理功能。

image.png

  1. 点击立即治理,开始对指定物理队列或节点进行碎片诊断并治理。

image.png image.png

  1. 针对已完成的诊断,点击“治理”,在弹窗中选择需要治理的工作负载,开启碎片治理。

image.png

image.png

  1. 治理完成后,点击“详情”,查看碎片治理结果详情信息。

image.png

上一篇
队列管理
下一篇
托管资源池