快速入门
更新时间:2023-06-14
本文为您简要的介绍使用百度百舸·AI异构计算平台的准备工作和创建流程。在首次使用百度百舸·AI异构计算平台的情况下,帮助用户快速上手,在平台上完成创建资源池及队列、通过模版创建典型大模型训练任务、查看监控等关键流程。
准备工作
因当前产品限制,使用百舸平台前需开通相应白名单,请在创建资源池前,联系百度支持人员,确保当前账户已完成以下操作,否则无法创建和使用资源池,我们将在后续版本优化这一操作。
-
云服务器BCC:
- 开通A800机型套餐白名单
-
并行文件存储服务PFS :
- 开通PFS产品白名单
- 创建可用的PFS实例
- 开通ParentDir白名单
创建流程
使用流程主要分为以下四步:
第一步:创建资源池。
资源池是百舸内部管理异构资源的基础单元,一个资源池对应一个CCE集群(计算服务),一个PFS实例(存储服务)和一个CPROM实例(监控服务)。
- 登录百度百舸·AI异构计算平台控制台。
- 进入资源池列表页面,点击购买资源池。
- 在资源配置页面,输入资源池名称。
-
创建CCE集群。
- 选择付费方式。
- 选择可用区。
- 配置节点网络。
- 配置容器网络。
- 选择节点配置/类型。
- 设置节点数量。
- 输入自定义登录密码并确认。
- 关联并行文件系统PFS 选择当前子网下已有的PFS存储实例进行关联。
- 关联监控大盘Grafana
-
如当前地域没有Grafana实例,默认新建实例。
- 输入Grafana名称。
- 输入自定义Grafana密码并确认。
- 如当前地域已有Grafana实例,则只显示Grafana实例名称和账号,可登录Cprom控制台修改Grafana密码,参考文档修改Grafana密码。
- 确认订单。 确认资源池配置信息,然后单击提交。
第二步:创建队列。
队列是一个资源池中部分资源的集合,用于工作负载(训练任务、在线服务)的运行
- 资源池创建完成后,在左侧菜单栏选择管理资源池,进入资源池列表页面。
- 找到您想要操作的实例,在操作栏单击创建队列。
- 在创建页面填写相关参数。
-
基础信息
- 填写队列的名称。
- 填写备注。
-
节点配置
- 选择GPU类型。
- 填写GPU张数。 如您需要,可点击添加配置更多节点。
- 确定创建。 完成上述配置后,单击完成即可完成资源池中队列的创建。
第三步:创建任务。
任务是百舸异构计算平台中最基本的执行单元,一个任务通常指一个AI模型的训练作业。
- 进入训练任务列表页面,点击创建任务。
- 配置基础信息。
- 填写任务名称。
- 选择资源池。
- 选择队列。
- 任务创建方式选择模版创建。
- 选择模版。 模板提供大模型运行Demo,选择模板后将自动填充好运行训练作业的配置信息,您可以按需修改。
- 配置环境。
- 输入镜像地址。 目前支持CCR企业版镜像和百舸预置镜像。
- 输入镜像版本。
- 选择训练框架。
- 输入执行命令。
- 添加环境变量。
- 配置资源。
- 填写副本数。
- 选择GPU类型。
- 填写每副本GPU卡数。
- 选择是否开启RDMA。 开启后系统将自动调度任务到支持RDMA的节点上
- 设置数据源。
- 根据关联文件系统填写挂载路径。
- 高级配置。 如果您需要,可开启Tensorboard功能,开启后需要指定日志读取路径。 该路径需要与代码中的Tensorboard日志路径保持一致,否则Tensorboard无法获取数据。
- 确认参数,然后单击提交,即可完成任务创建。
第四步:查看监控。
资源池和训练任务的监控数据将存储在用户的Cprom(Prometheus服务)实例中,百舸平台提供了监控大盘访问链接,并预置了AI相关的监控项指标。如当前账户不存在Cprom实例,可以通过以下步骤创建,创建完成后可通过监控大盘链接直接访问监控数据
- 在左侧菜单栏选择管理资源池,进入资源池列表页面,找到您想要查看的实例,在操作栏单击监控大盘。
- 点击快速接入,百舸将会为您自动创建并关联一个新的CPORM实例来监控集群。 CPORM提供15天以内的免费存储时长。若您需要存储更长时间,请查看CPROM产品介绍。
- 接入过程中,您可以点击“接入进度”查看接入CPROM进度。
- 接入成功后,可选择对应大盘按钮进入Grafana页面查看监控大盘信息。