使用限制
更新时间:2025-01-09
本文将介绍在使用百度百舸异构计算平台过程中可能会涉及到云产品以及对应的限制项,方便您在使用前根据需要统一调整,避免因限制导致的使用问题。
通用限制
限制项 | 限制 |
---|---|
白名单 | 因当前依赖产品限制,使用百舸平台前需开通相应云产品白名单。 请在创建资源池前,联系百度技术支持人员,并确保当前账户已完成以下操作,否则无法创建和使用资源池。 云服务器BCC:开通A800机型套餐白名单,更多信息请查看云服务器BCC 并行文件存储服务PFS :开通PFS产品白名单并创建可用的PFS实例 |
GPU/NPU套餐支持
百舸平台上可直接创建的GPU/NPU套餐如下,其他型号逐步完善中。
产品形态 | GPU/NPU型号 | 套餐名称 | 支持镜像&驱动&CUDA版本 |
---|---|---|---|
EBC/EHC | Nvidia A800 | ehc.lgn5.c128m1024.8a800.8re.4d | Ubuntu 20.04 & Ubuntu 22.04 + 535.161.08 + 12.2.0 & 12.3.2 |
BCC | Nvidia A800 | bcc.lgn5c.c116m978.8a800.8ib.2d | Ubuntu 20.04 & Ubuntu 22.04 + 535.161.08 + 12.2.0 |
BCC | Nvidia H800 | bcc.lgn6tcef.c180m2938.8h800.8re.4d | Ubuntu 20.04 & Ubuntu 22.04 + 535.161.08 + 12.2.0 |
BCC | Nvidia A100 | bcc.gn5.c112m896.8A100-40g | Ubuntu 20.04 & Ubuntu 22.04 + 535.161.08 + 12.2.0 |
BCC | Nvidia A100 | bcc.lgn5c.c116m978.8a100.8ib.2d | Ubuntu 20.04 & Ubuntu 22.04 + 535.161.08 + 12.2.0 |
BCC | Nvidia L20 | bcc.gn5i.c112m476.4l20 | Ubuntu 20.04 & Ubuntu 22.04 + 535.161.08 + 12.2.0 |
BCC | Nvidia 4090 | bcc.gn5rc.c128m476.8g4090 | Ubuntu 20.04 + 535.161.08 + 12.2.0 |
BCC | Nvidia 4090 | bcc.gn5rc2.c136m476.8g4090 | Ubuntu 20.04 + 535.161.08 + 12.2.0 |
EHC | Nvidia A800 | ehc.lgn5.c128m2048.8a800.8re.4d | Ubuntu 22.04 + 535.161.08 + 12.0 9.0.0 |
分布式训练相关
限制项 | 限制 |
---|---|
任务管理 | a. 通过k8s api提交的任务不支持复制、重跑操作 b. 训练平台仅支持Pytorch、MPI框架任务的提交 |
可观测 | 集合通信带宽监控暂不支持MPIJob |
稳定性 | 训练容错能力暂不支持MPIJob |
开发机
限制项 | 限制 |
---|---|
资源配额 | 开发机创建在已有百舸资源池的指定队列中,与训练任务、推理服务共享资源池GPU/CPU/内存等资源,资源配额受用户队列资源配额限制。 |
环境保存 | 当前开发机以容器形式存在,开发机重启、关机、异常退出、所在节点(集群计算节点)异常时,容器会销毁或缩容,对应环境会一并销毁。 开发机发生重启、关机、异常时以下内容会丢失: 1. 未保存的文件 2. 非镜像中预制的软件和依赖 3. 用户对开发机设置的用户账号、权限(user权限等) |
文件保存 | 开发机系统目录为临时存储,在发生重启、关机、异常退出时保存在系目录的文件会丢失,建议用户文件不要放置在系统目录,而是放置在挂载的共享存储中 |