使用限制
更新时间:2024-07-25
本文将介绍在使用百度百舸异构计算平台过程中可能会涉及到云产品以及对应的限制项,方便您在使用前根据需要统一调整,避免因限制导致的使用问题。
白名单:
因当前产品限制,使用百舸平台前需开通相应白名单,请在创建资源池前,联系百度支持人员,并确保当前账户已完成以下操作,否则无法创建和使用资源池。
- 云服务器BCC:
开通A800机型套餐白名单,更多信息请查看云服务器BCC。
- 并行文件存储服务PFS :
- 开通PFS产品白名单
- 创建可用的PFS实例
IAM权限
因当前产品限制,使用百舸平台前需配置相关产品的IAM权限策略,只有主账号和具备相关权限的子账号才能正常使用百舸平台,否则会提示无权限操作。
面向算法工程师:可提交任务、查看任务日志、查看任务监控、复制任务、删除任务
相关产品 | IAM权限策略 |
---|---|
CCE | CCEDevelopPolicy |
CCR | CCRReadPolicy, ECCRReadAccessPolicy |
PFS | PFSReadAccessPolicy |
BLS | BLSReadPolicy |
您也可以根据实际情况使用自定义策略进行权限授予,可参考:https://cloud.baidu.com/doc/IAM/s/Wjxlkh37y
资源池
- 资源池配置
配置项 | 说明 |
---|---|
K8s版本 | 1.20 |
网络模式 | VPC模式 |
存储 | PFS L1 |
- 节点套餐配置
套餐代码 | 配置 |
---|---|
ehc.lgn5.c128m1024.8a800.8re.4d | 镜像:Ubuntu 20.04 LTS amd64 (64bit) CUDA版本:11.7.1 GPU驱动版本:515.86.01 CUDNN版本:8.7.0 系统盘:增强型SSD_PL1,容量:500GB 数据盘:格式化并挂载第一块数据盘,设置kubelet(/var/lib/kubelet)和docker存储目录(/var/lib/docker)为数据盘 |
ebc.lgn5r.c128m512.8g4090.1d | 镜像:Ubuntu 20.04 LTS amd64 (64bit) CUDA版本:11.7.1 GPU驱动版本:515.86.01 CUDNN版本:8.7.0 系统盘:增强型SSD_PL1,容量:500GB |
bcc.gn5.c112m476.4a10 | 镜像:Ubuntu 20.04 LTS amd64 (64bit) CUDA版本:11.7.1 GPU驱动版本:515.86.01 CUDNN版本:8.7.0 系统盘:增强型SSD_PL1,容量:500GB |
bcc.gn5i.c112m476.4l20 | 镜像:Ubuntu 20.04 LTS amd64 (64bit) CUDA版本:12.2.2 GPU驱动版本:535.154.05 CUDNN版本:8.9.5 系统盘:增强型SSD_PL1,容量:500GB |
训练任务
- 任务管理:
a. 通过k8s api提交的任务不支持复制、重跑操作
b. 训练平台仅支持Pytorch、MPI框架任务的提交
c. 数据来源支持PFS,仅支持对接PFS L1
- 可观测:
- 集合通信带宽监控暂不支持MPIJob
- 稳定性:
- 训练容错能力暂不支持MPIJob
推理服务
- 因当前产品限制,使用百舸平台前需开通模型部署白名单。
- 仅支持部署平台可选的开源大语言模型,不支持通过自定义镜像部署服务。
- 仅支持使用PFS L1存储读取模型权重文件。