黑金云计算bg  内容精选
  • 服务弹性伸缩 - 百舸异构计算平台AIHC | 百度智能云文档

    服务弹性伸缩 使用模型部署推理服务后(暂不支持使用自定义镜像部署的服务进行弹性伸缩),如果业务负载出现显著的波峰波谷,您可以开启推理服务实例弹性扩缩容功能。通过本功能,您可以根据业务负载的变化,自动调整推理服务实例的数量,以实现计算资源的动态管理,确保业务平稳运行并提高资源利用率。

    查看更多>>

  • GPUManager组件 - 百舸异构计算平台AIHC | 百度智能云文档

    前提条件 已接入监控实例 需启用采集任务,具体参考文档: 接入监控实例并启用采集任务 使用方法 登录 百舸异构计算平台AIHC控制台 。 在左侧导航栏 资源池 中选择您想要查看监控大盘的 资源池名称 ,并点击右侧操作中的 资源观测 。 跳转至 资源观测 页面,选择 GPUManager组件 。

    查看更多>>

黑金云计算bg  更多内容
  • 管理开发机 - 百舸异构计算平台AIHC | 百度智能云文档

    进入开发机列表页 点击开发机列表页的操作项【删除】后开发机即可进入删除中流程 更改配置 开发机还不支持更改配置操作,后续迭代中会支持,当前需要更改开发机配置(如变更开发机GPU卡数、CPU、内存以及变更SSH密钥、开启关闭外网等操作时),建议操作方法: 不需要保留开发机设置时,直接删除后创建新的开发机 需要保留开发机设置时,可【备份开发机>恢复开发机】的方式通过先备份再通过备份镜像新建开发机 备份开发机

    查看更多>>

  • 训练效果监控Tensorboard - 百舸异构计算平台AIHC | 百度智能云文档

    百舸异构计算平台AIHC中集成了tensorboard的能力,本文将介绍如何在百舸平台使用Tensorboard。 功能说明 百舸Tensorboard服务使用百度云的鉴权体系进行安全访问限制,保证数据的安全。 为避免资源池残留大量的Tensorboard实例,百舸对Tensorboaed实例采用定时回收机制,默认保留24小时。

    查看更多>>

  • 更新日志 - 百舸异构计算平台AIHC | 百度智能云文档

    尽量均衡 DP 间的采样样本长度; Packing 模式下,支持数据集按 packing 后的样本总计算量排序,尽量均衡 DP 间的计算量(在长序列场景下,由于样本长度差异较大,该问题可能更严重); 升级 Megatron 显存优化机制,在长序列等对显存要求极高的场景下,可用于精细的调整显存占用,包括: 支持流水线并行按 PP Stage 动态设置不同的 PP Layer 数目; 支持重计算功能按

    查看更多>>

  • GPU节点资源 - 百舸异构计算平台AIHC | 百度智能云文档

    前提条件 AI Job Scheduler版本 >= 1.7.9 已接入监控实例 需启用采集任务,具体参考文档: 接入监控实例并启用采集任务 使用方法 登录 百舸异构计算平台AIHC控制台 。 在左侧导航栏 资源池 中选择您想要查看监控大盘的 资源池名称 ,并点击右侧操作中的 资源观测 。 跳转至 资源观测 页面,选择 GPU节点资源 。

    查看更多>>

  • 产品定价 - 百舸异构计算平台AIHC | 百度智能云文档

    产品定价 百度百舸·AI异构计算平台免费为用户提供服务,用户只需为实际使用的资源(如 计算资源、PFS、CCR、CProm、BLS等)进行付费,具体计费标准可以参考 云服务器计价 、 PFS定价 、 CCR定价 、 CProm定价 、 BLS定价 。

    查看更多>>

  • 高级用法 - 百舸异构计算平台AIHC | 百度智能云文档

    使用方法: 当前 PP Stage 存在显存不均衡问题,第一个stage 一般显存占用最多,需要开启更多的重计算layer数;而最后一个stage占用显存最少,可以开启最少的重计算层数或者不开重计算

    查看更多>>

  • AIAK-Training-LLM简介 - 百舸异构计算平台AIHC | 百度智能云文档

    AIAK-Training-LLM简介 AIAK-Training-LLM是百度智能云基于百舸异构计算平台,面向大模型训练场景提供的最佳实践解决方案配套 AI 加速工具,帮助模型开发者高效完成大规模深度学习分布式训练,提升训练效率,相比开源 Megatron-LLM性能明显提升。

    查看更多>>

  • GPU资源池总览 - 百舸异构计算平台AIHC | 百度智能云文档

    前提条件 AI Job Scheduler版本 >= 1.7.9 已接入监控实例 需启用采集任务,具体参考文档: 接入监控实例并启用采集任务 使用方法 登录 百舸异构计算平台AIHC控制台 。 在左侧导航栏 资源池 中选择您想要查看监控大盘的 资源池名称 ,并点击右侧操作中的 资源观测 。 跳转至 资源观测 页面,选择 GPU资源池总览 。

    查看更多>>