性能测试
更新时间:2025-01-10
测试数据:107GB 数据集,1,000,000 张图片,平均每张 110KB
测试环境:百度云 bcc.c5.c8m16,CPU 数 8 个,内存 16GB,内网带宽 3Gbps
数据集类型:以 from_prefix 构建 BosIterableDataset 为例
测试结果:
batch_size | num_workers | 数据集类型 | 构建方式 | 结果 | |
---|---|---|---|---|---|
bostorchconnector | 256 | 8 | BosIterableDataset | from_prefix | 2785 img/s |
bosfs | 256 | 8 | BosIterableDataset | from_prefix | 48 img/s |
测试代码:
def transform(data):
data.read()
return data.key
@time_it
def test_bos():
config = BosClientConfig()
BOS_URI = "bos://bos-torch/img_1M/"
dataset = BosIterableDataset.from_prefix(BOS_URI, endpoint="http://su.bcebos.com", transform=transform, bos_client_config=config, enable_sharding=True)
dataloader = torch.utils.data.DataLoader(dataset, batch_size=256, num_workers=8)
for step, key in enumerate(dataloader):
print(key)
pass