在集群管理页面的左侧导航栏中,单击 工作负载 > 守护进程集 。 点击无状态工作负载列表左上角 新建守护进程集 ,进入创建工作负载页面。 在基本信息模块完成相关配置,点击 下一步 进入容器配置。 参数 说明 工作负载名称 根据系统提示,配置工作负载的名称。在同一个命名空间下,名称必须唯一。 命名空间 选择工作负载部署的命名空间,默认为default。
否则全量数据迁移时 DTS 占用源和目标库一定读写资源,可能会导致数据库的负载上升。 操作限制 迁移过程中请勿进行如下操作,否则会导致迁移任务失败。 在结构迁移和全量迁移阶段,请勿执行库或集合的结构变更,否则数据迁移任务会失败。 在迁移过程中,请勿向目标库中写入新的数据,否则将导致源和目标数据不一致。
说明: 支持选择多个工作负载,若选择多个工作负载,则会按照工作负载数量生成对应的伸缩规则,实际生成的伸缩规则名称为“规则名称+工作负载名称” Pod数量会在设定的范围内自动调节,不会超出该设定范围。 单击 确认 ,即可完成创建。
本地突发负载弹性上容器实例场景 当工作负载扩容,本地资源不足或者达到设置的最大值时,将实例溢出到云端BCI容器实例,限制本地最多创建30个实例。工作负载缩容时,优先释放云端BCI容器实例。工作负载缩容时,优先释放云端实例。
基于真实负载的调度策略: 描述:当节点超过安全水位时,新部署的pod会按照当前所有节点的真实负载最优的进行调度 观察工作负载所在节点的负载情况 部署其他服务进行调度,并观察调度日志,发现node-172.16.80.33真实负载最低,得分最高 观察服务调度部署情况,发现部署的服务调度到负载最低(得分最高)的节点 node-172.16.80.33 上 预期结果 负载超过阈值的node不会再部署其他服务
本地突发负载上云场景 当工作负载扩容,本地资源不足或者达到设置的最大值时,将实例溢出到云端BCI容器实例,限制本地最多创建30个实例。工作负载缩容时,优先释放云端BCI容器实例。
1.1.2云管系统官网同时提供付费授权的可搭配云管系统系统使用的受控端、控制器等,例如:VMware受控端、 Hyper-V受控端、KVM受控端、虚拟主机受控端、负载均衡受控端、云数据库受控端、物理机控制器、IPMI 控制器、机房控制器、NOVNC控制器等,具体以云管系统官网展示的为准。
不可治理的原因: 关联分析任务已不存在 任务关闭重调度 预调度失败 达到任务最低保障副本 单负载的工作负载 无工作负载管理的Pod 关联Pod已不存在 错误的整理类型 推理服务摘流失败 推理服务终止失败 该Pod已在重调度中,重复的重调度 Pod迁移失败 该工作负载已达到最大pod迁移数 碎片治理 诊断完成后,可以基于诊断结果进行碎片治理: 操作步骤 登录 百舸AI计算平台AIHC控制台 。
百舸实现了数据并行、专家并行的双重负载均衡,进一步提升了并行效率。 另外,百舸首创了事件驱动的分布式KV Cache,有效规避重复计算,实现“用存储,换计算”。 在百舸5.0的推理系统上,DeepSeek R1的推理吞吐可以再提升50%。也就是说,相同的时间、相同和成本,用了百舸,能让模型多做50%的思考、多干50%的活。 刚才,我讲了网络、算力和推理。
人工智能推理 针对深度学习的在线推理场景,相比训练负载,推理负载对GPU性能的要求降低,但对运行稳定性要求更高,对服务器响应延时也有了更高要求。 可选择NVIDIA Tesla A10、NVIDIA Tesla T4等GPU类型,在满足性能要求的同时,提供更具性价比的选择,同时支持GPU硬件级的解码功能并加速端到端的图片类推理性能。