快速创建大模型训练任务
本文为您简要的介绍使用百度百舸·AI异构计算平台的准备工作和创建流程。在首次使用百度百舸·AI异构计算平台的情况下,帮助用户快速上手,在平台上完成创建资源池及队列创建、快速创建大模型训练任务、查看监控等关键流程。
主要操作流程
- 注册百度智能云账号,并完成实名认证。请参考 注册 和 实名认证
- 登录百度百舸·AI异构计算管理控制台。
- 创建资源池
- 创建队列
- 创建分布式训练任务
- 查看监控
使用准备
在创建大模型训练任务前,您需要创建资源池,百舸为您提供了全托管资源池和自运维资源池,您可根据您的业务规模和需求选择资源池类型。
全托管资源池为您提供稳定、易用的免运维资源池,您可更专注于模型训练;自运维资源池为您提供稳定、高性能的计算集群,您可在平台全方位管理您的计算资源。
因当前产品限制,创建资源池需开通相应白名单,请在创建前可通过工单联系百度支持人员,确保当前账户已完成以下操作,否则无法创建和使用资源池,我们将在后续版本优化这一操作。
-
云服务器BCC:
- 开通A800机型套餐白名单
-
并行文件存储服务PFS :
- 开通PFS产品白名单
- 创建可用的PFS实例
- 开通ParentDir白名单
创建流程
第一步 创建资源池
资源池是百舸内部管理异构资源的基础单元,一个资源池对应一个CCE集群(计算服务),一个PFS实例(存储服务)和一个CPROM实例(监控服务)。本文以创建全托管资源池为例。
- 登录百度百舸·AI异构计算平台控制台。
- 进入全托管资源池列表页面,点击「新建资源池」。
- 配置基本信息。
- 资源池名称
- 备注
- 选择地域和可用区
- 配置网络信息
- 配置资源池网络
- 选择节点子网和容器子网
- 选择安全组
- 填写Cluster IP网段
- 配置节点信息
- 选择付费方式
- 选择节点规格
- 选择节点数量
- 选择使用时间
- 选择续费方式
- 选择关联服务 按需选择并行文件系统PFS和监控实例,监控实例也可后续再开通。
- 确认订单。 确认资源池配置信息,然后单击提交。
您也可以选择创建自运维资源池进行后续的大模型训练,创建请参考:创建自运维资源池。
第二步:创建队列
队列是一个资源池中部分资源的集合,用于工作负载(训练任务、在线服务、开发机)的运行。本文提供创建全托管资源池队列的操作方式。
- 全托管资源池创建完成后,在全托管资源池列表页,单击选择资源队列,点击新建资源队列。
- 在队列管理页面,点击创建队列,并填写相关信息。
- 队列基本信息。
- 资源中节点分配信息。
- 若资源池中无节点,可以点击添加节点进行新增。
- 确定创建。 完成上述配置后,单击完成即可完成资源池中队列的创建。
如您选择创建了自运维资源池,您可以在资源维资源池下创建队列,请参考:队列管理。
第三步:创建分布式训练任务
任务是百舸异构计算平台中最基本的执行单元,一个任务通常指一个AI模型的训练作业。
- 进入分布式训练任务列表页面,点击创建任务。
- 配置任务基础信息。
- 填写任务名称
- 选择资源池:资源池类型和对应资源池
- 选择队列:资源池下对应的队列
- 选择任务优先级
- 选择训练框架
- 选择是否开通日志持久化
- 选择创建方式:支持自定义创建和AIAK训练加速模板创建,选择模板后将自动填充好运行训练作业的配置信息,您可以按需修改。
- 环境配置
- 选择镜像地址,如您任务创建方式选择AIAK训练加速模板创建,则无需再次选择镜像地址;
- 填写执行命令,您也可以基于AIAK加速训练加速模板中执行命令进行修改;
- 设置环境变量
- 配置资源
- 选择实例数
- 选择是否申请加速芯片、加速芯片类型
- 填写CPU
- 填写共享内存
- 选择是否开启RDMA
- 配置数据源
- 根据关联文件系统填写挂载路径。
- 选择容错/诊断
- 选择是否配置任务hang检测
- 选择是否开启容错和容错策略
- 高级配置:百舸训练任务为您提供更多个性化高级配置
- 选择是否开启Tensorboard,如开启则需填写日志路径
- 选择是否开启任务退出后自动删除,如开启则需配置保留时长
- 选择是否开启告警,如开启则配置告警策略
- 选择是否定时提交训练任务,如开启则需指定定时提交时间
- 填写完成后,点击完成,提交任务。至此,您已成功运行一个大模型训练任务。
第四步:查看训练任务详情
全托管资源池需要接入CPROM监控实例可查看资源池监控,可在列表页点击资源池名称,进入资源池详情页,点击快速接入,创建监控实例。
若在创建资源池阶段已接入CPROM监控实例,可直接在资源池详情中,点击资源观测查看监控。
自运维资源池需要创建CPROM监控实例可进行监控查看,接入方式接入监控实例并启用采集任务
训练任务各项监控和观测内容
用户可以通过在分布式训练列表页点击监控和日志按钮,或点击任务名称进入任务详情页,点击任务监控/任务日志查看任务的资源使用情况和任务日志。
百舸平台为训练任务提供了全面的可观测内容,用户可以多维度查看训练任务的各项指标:任务日志、 任务事件、任务资源监控、任务性能监控、任务集合通信带宽监控、训练效果监控Tensorboard。