快速创建大模型训练任务
本文为您简要的介绍使用百度百舸·AI异构计算平台的准备工作和创建流程。在首次使用百度百舸·AI异构计算平台的情况下,帮助用户快速上手,在平台上完成创建资源池及队列创建、快速创建大模型训练任务、查看监控等关键流程。
主要操作流程
- 注册百度智能云账号,并完成实名认证。请参考 注册 和 实名认证
- 登录百度百舸·AI异构计算管理控制台。
- 创建资源池
- 创建队列
- 创建分布式训练任务
- 查看监控
使用准备
在创建大模型训练任务前,您需要创建资源池,百舸为您提供了通用资源池和托管资源池,您可根据您的业务规模和需求选择资源池类型。
通用资源池为您提供稳定、高性能的计算集群,您可在平台全方位管理您的计算资源;托管资源池为您提供稳定、易用的免运维资源池,您可更专注于模型训练。
因当前产品限制,创建资源池需开通相应白名单,请在创建前联系百度支持人员,确保当前账户已完成以下操作,否则无法创建和使用资源池,我们将在后续版本优化这一操作。
-
云服务器BCC:
- 开通A800机型套餐白名单
-
并行文件存储服务PFS :
- 开通PFS产品白名单
- 创建可用的PFS实例
- 开通ParentDir白名单
创建流程
第一步 创建资源池
资源池是百舸内部管理异构资源的基础单元,一个资源池对应一个CCE集群(计算服务),一个PFS实例(存储服务)和一个CPROM实例(监控服务)。本文以创建通用资源池为例
- 登录百度百舸·AI异构计算平台控制台。
- 进入通用资源池列表页面,点击购买通用计算资源。
- 在资源配置页面,输入资源池名称。
- 创建CCE集群。
- 选择付费方式
- 选择可用区
- 配置节点网络
- 配置容器网络
- 选择节点配置/类型
- 设置节点数量
- 输入自定义登录密码并确认
- 关联并行文件系统PFS 选择当前子网下已有的PFS存储实例进行关联。
- 确认订单。 确认资源池配置信息,然后单击提交。
您也可以选择创建托管资源池进行后续的大模型训练,创建请参考:创建托管资源池网络、创建托管资源池。
第二步:创建队列
队列是一个资源池中部分资源的集合,用于工作负载(训练任务、在线服务)的运行。本文提供创建通用资源池队列的操作方式。
- 通用资源池创建完成后,在通用资源池列表页,找到您想要操作的资源池,单击右侧省略号选择创建队列。
- 在队列管理页面,点击创建队列,并填写相关参数。
- 填写队列的名称
- 填写备注
- 选择对列类型
- 选择父对列
- 分配GPU
- 填写GPU张数。如您需要,可通过资源池列表中“创建节点”添加配置更多节点。
- 确定创建。 完成上述配置后,单击完成即可完成资源池中队列的创建。
如您选择创建了托管资源池,您可以在托管资源池下创建队列,请参考:创建和管理资源队列。
第三步:创建分布式训练任务
任务是百舸异构计算平台中最基本的执行单元,一个任务通常指一个AI模型的训练作业。
- 进入分布式训练任务列表页面,点击创建任务。
- 配置任务基础信息。
- 填写任务名称
- 选择资源池:资源池类型和对应资源池
- 选择队列:资源池下对应的队列
- 选择任务优先级
- 选择训练框架
- 选择是否开通日志持久化
- 选择创建方式:支持自定义创建和AIAK训练加速模板创建,选择模板后将自动填充好运行训练作业的配置信息,您可以按需修改。
- 环境配置
- 选择镜像地址,如您任务创建方式选择AIAK训练加速模板创建,则无需再次选择镜像地址;
- 填写执行命令,您也可以基于AIAK加速训练加速模板中执行命令进行修改;
- 设置环境变量
- 配置资源
- 选择实例数
- 选择是否申请加速芯片、加速芯片类型
- 填写CPU
- 填写共享内存
- 选择是否开启RDMA
- 配置数据源
- 根据关联文件系统填写挂载路径。
- 选择容错/诊断
- 选择是否配置任务hang检测
- 选择是否开启容错和容错策略
- 高级配置:百舸训练任务为您提供更多个性化高级配置
- 选择是否开启Tensorboard,如开启则需填写日志路径
- 选择是否开启任务退出后自动删除,如开启则需配置保留时长
- 选择是否开启告警,如开启则配置告警策略
- 选择是否定时提交训练任务,如开启则需指定定时提交时间
- 填写完成后,点击完成,提交任务。至此,您已成功运行一个大模型训练任务。
第四步:查看监控
查看通用资源池监控
通用资源池的监控数据将储存在用户的Cprom(Prometheus服务)实例中,百舸平台内置了监控大盘的访问页面,如果当前账户不存在Cprom实例,可以通过以下步骤创建。
- 在左侧菜单栏中选择通用资源池,进入通用资源池列表页面,点击你想要查看监控的资源池名称,进入该资源池详情页面。
- 找到资源信息模块,找到关联监控实例(CPROM),点击快速接入,百舸将会为您自动创建并关联一个新的CPORM实例来监控集群。 CPORM提供15天以内的免费存储时长。若您需要存储更长时间,请查看CPROM产品介绍。
- 接入过程中,您可以点击接入进度查看接入CPROM进度。
- 接入成功后,可点击通用资源池列表的监控按钮查看,或通过通用资源池详情页的资源观测页面查看。
如您选择的资源池是托管资源池,可直接在托管资源池列表页,点击资源池名称,进入资源池详情页,点击资源观测查看,无需额外接入Cprom。
训练任务各项监控和观测内容
用户可以通过在分布式训练列表页点击监控和日志按钮,或点击任务名称进入任务详情页,点击任务监控/任务日志查看任务的资源使用情况和任务日志。
百舸平台为训练任务提供了全面的可观测内容,用户可以多维度查看训练任务的各项指标:任务日志、 任务事件、任务资源监控、任务性能监控、任务集合通信带宽监控、训练效果监控Tensorboard。