通用说明 API认证机制 所有API的安全认证一律采用Access Key与请求签名机制。Access Key由Access Key ID和Secret Access Key组成,均为字符串。对于每个HTTP请求,使用下面所描述的算法生成一个认证字符串。提交认证放在Authorization头域里。服务端根据生成算法验证认证字符串的正确性。认证字符串的格式为bce-auth-v{version}/
强化学习训练加速 简介 AIAK-RLHF是基于百舸异构计算平台面向大模型强化学习训练场景提供的最佳实践解决方案配套 AI 加速工具,帮助模型开发者高效完成大规模深度学习分布式训练,提升训练效率,在开源代码基础上,对ppo训练流程通过全混部方式进行加速。
使用前提 使用工具市场功能前,请先在 轻量计算实例 中添加算力资源,请参见 轻量计算实例 部署工具 您可以在 工具市场 > 工具模版 中根据业务需求选择模版单击 部署工具 快速部署工具,指定部署工具所需加速芯片。 添加实例 工具市场>我的工具 查看需要添加工具实例的工具详情,点击 添加工具实例 , 您可以根据需求添加实例在单机多卡、多机多卡的算力资源上部署工具。
前提条件 AI Job Scheduler版本 >= 1.7.9 已接入监控实例 需启用采集任务,具体参考文档: 接入监控实例并启用采集任务 使用方法 登录 百舸异构计算平台AIHC控制台 。 在左侧导航栏 资源池 中选择您想要查看监控大盘的 资源池名称 ,并点击右侧操作中的 资源观测 。 跳转至 资源观测 页面,选择 GPU工作负载资源 。
str 否 None full、selective 重计算粒度 --recompute-method str 否 None uniform、block 重计算方式 --recompute-num-layers int 否 1 NA 重计算层数 --distribute-saved-activations bool 否 False NA 中间值结果按tensor model parallel维度切分开关
selective) --recompute-granularity str 否 None full selective hybrid 重计算粒度 --recompute-method str 否 None uniform block 重计算方式 --recompute-num-layers int 否 1 NA 重计算层数 --recompute-view-for-virtual-pipeline-stage
删除队列 描述 删除指定队列 请求结构 DELETE /api/v1/resourcepools/{resourcePoolId}/queue/{queueName} Host:aihc.bj.baidubce.com Authorization:authorization string ContentType: application/json 请求头域 除公共头域外,无其它特殊头域。 请求参数
查看集合通信监控 登录 百舸异构计算平台AIHC控制台 。 左侧菜单栏单击 训练任务 ,进入训练任务列表页面 选择需要查询的训练任务,单击 监控 > 集合通信带宽监控, 即可查询该任务的集合通信监控大盘
前提条件 AI Job Scheduler版本 >= 1.7.9 已接入监控实例 需启用采集任务,具体参考文档: 接入监控实例并启用采集任务 使用方法 登录 百舸异构计算平台AIHC控制台 。 在左侧导航栏 资源池 中选择您想要查看监控大盘的 资源池名称 ,并点击右侧操作中的 资源观测 。 跳转至 资源观测 页面,选择 AI Job Scheduler组件 。
操作步骤如下: 登录 百舸异构计算平台AIHC控制台 。 在左侧菜单栏选择 资源池 ,进入资源池列表页面,点击 资源池名称 ,进入资源池详情页面。 在左侧菜单栏选择 节点管理 ,进入节点列表页面 选择对应的节点,单击 封锁设置 ,关闭 自动故障隔离 开关 点击 确定 ,为此节点关闭自动故障隔离功能,即使系统检测到该节点的故障信息,仍不会自动隔离该节点。