训练时长设置参考
更新时间:2023-01-18
运行环境说明
目前 BML 支持选择GPU P4、GPU P40、GPU V100三种运行环境,性能从高到低为V100>P40>P4。具体规格说明如下:
机型 | 规格说明 |
---|---|
GPU V100 | TeslaGPU_V100_16G显存单卡_12核CPU_56G内存 |
GPU P40 | TeslaGPU_P40_24G显存单卡_12核CPU_40G内存 |
GPU P4 | TeslaGPU_P4_8G显存单卡_12核CPU_40G内存 |
温馨提示:
- 未开通付费的情况下,可选的运行环境为GPU P4,我们为每位用户提供了GPU P4运行环境下100(小时*节点)免费算力支持,超出后请您付费购买。详见页面提示的价格说明。
- 图像分类NASNet网络暂时不支持在 GPU P4环境上运行,若您未开通付费,请选择其他网络。
如何设置节点数及运行时间
1、选择计算节点数:节点数越多运行效率越高,可结合训练数据量及运行效率灵活选择。目前可设置的最高计算节点数为6.
2、最长训练时间:超过最长训练时间后模型会自动停止运行,注意这里设置的最长训练时间与最长计费时长有一定差异,训练计费时长将根据数据增强-自动搜索耗时+训练耗时的总时长进行计算。
注意:实际训练时长与所选机型、节点数、网络、数据量均有关系,其中性能上V100>P40>P4,在同一网络前提下,训练机型新能越高、节点数越多、数据量越少训练速度会越快。
根据历史经验,不同数据量范围、网络的大致耗时范围如下,供辅助参考
图像分类
网络及设置 | 数据量范围 | 训练耗时预估 | |
---|---|---|---|
ResNet50(batch size=16) | 1-1.5w | 2节点预估12-14min左右;4节点11min左右 | |
4-6k | 5min左右,10min以内,多节点或单节点不太影响训练时长 | ||
1k 以下 | 2-3min左右,多节点或单节点不太影响训练时长 |
物体检测
网络及设置 | 数据量范围 | 训练耗时预估 | |
---|---|---|---|
Faster_R-CNN-ResNet50-FPN | 200-400之间 | 2节点预估十几-二十分钟左右;4节点预估在十分钟以内 | |
1800-2000 | 2节点预估在60min左右,4节点预估在40min左右 |
以下为典型网络在不同数据量、不同机型、不同节点数的实际测试训练耗时,供辅助参考。
图像分类
网络及数据量 | 机型 | 节点数 | 训练耗时 |
---|---|---|---|
ResNet50(数据量6000+) | V100 | 1 | 400s |
V100 | 2 | 326s | |
V100 | 6 | 198s | |
P40 | 1 | 867s | |
P40 | 2 | 562s | |
P40 | 6 | 540s | |
P4 | 1 | 1385s | |
P4 | 2 | 751s | |
P4 | 6 | 302s | |
MobileNet(数据量6000+) | V100 | 1 | 259s |
V100 | 2 | 197s | |
V100 | 6 | 161s | |
P40 | 1 | 396s | |
P40 | 2 | 285s | |
P40 | 6 | 333s | |
P4 | 1 | 630s | |
P4 | 2 | 370s | |
P4 | 6 | 178s |
物体检测
网络及数据量 | 机型 | 节点数 | 训练耗时 |
---|---|---|---|
Faster_R-CNN-ResNet50-FPN(数据量400+)20epoch | V100 | 1 | 29.1min |
V100 | 2 | 16.1min | |
V100 | 6 | 6min | |
P40 | 1 | 40min | |
P40 | 2 | 21.8min | |
P40 | 6 | 11.8min | |
P4 | 1 | 66min | |
P4 | 2 | 34.4min | |
P4 | 6 | 13.28min | |
SSD-MobileNetV1(数据量400+)20epoch | V100 | 1 | 19min |
V100 | 2 | 10.3min | |
V100 | 6 | 3.9min | |
P40 | 1 | 28.1min | |
P40 | 2 | 14.6min | |
P40 | 6 | 4.8min | |
P4 | 1 | 25.4min | |
P4 | 2 | 13.4min | |
P4 | 6 | 5.1min |