碎片治理
更新时间:2025-03-03
概述
为优化资源利用率并降低计算成本,您可以开启百舸碎片治理功能,有效解决分布式训练、小规模推理等场景下的非整机任务导致的资源碎片问题,实现资源高效回收与复用。
前提条件
在 CCE 组件管理页面,选择云原生 AI 栏目,CCE Al Job Scheduler、CCE Deep Learning Frameworks Operator 组件版本按照下图升级到最新版本,以使用碎片治理功能。
功能说明
碎片诊断
- 诊断工作负载:分布式训练任务和自定义服务部署。
- 诊断输入:物理队列和节点,支持对指定物理队列或节点进行碎片诊断(仅支持治理含加速芯片的队列和节点),定位碎片资源分布情况。
-
不可治理的原因:
- 关联分析任务已不存在
- 任务关闭重调度
- 预调度失败
- 达到任务最低保障副本
- 单负载的工作负载
- 无工作负载管理的Pod
- 关联Pod已不存在
- 错误的整理类型
- 推理服务摘流失败
- 推理服务终止失败
- 该Pod已在重调度中,重复的重调度
- Pod迁移失败
- 该工作负载已达到最大pod迁移数
碎片治理
诊断完成后,可以基于诊断结果进行碎片治理:
操作步骤
- 登录百舸异构计算平台AIHC控制台。
- 在左侧菜单栏选择通用资源池,找到您想要查看的资源池名称,单击ID。
- 单击全局配置页面,打开碎片诊断与治理功能。
- 点击立即治理,开始对指定物理队列或节点进行碎片诊断并治理。
- 针对已完成的诊断,点击“治理”,在弹窗中选择需要治理的工作负载,开启碎片治理。
- 治理完成后,点击“详情”,查看碎片治理结果详情信息。