admin管理员组

文章数量:1530847

2024年7月15日发(作者:)

A100算力测试

一、 测试目的

测试A100与3090的性能差距;

二、 测试环境

环境为cuda11.1,显卡驱动11.4,pytorch1.9;

GPU利用率均为100%;

使用的网络主要包括以下几种:

(1)、facebookresearch/detectron2框架下的目标检测、实例分割、关键点检测,

主干网络为fasterrcnn;

(2)、ultralytics/yolov3;

(3)、lufficc/SSD;

三、 测试方法

采用相同的数据集,不改变任何参数,查看训练完指定epochs后的时常;

四、 测试结果

A100 3090

A100相对于3090差

官方cuda算力

显存

Yolov3(coco128,epochs100)

Yolov3(coco128,epochs300,A

100双卡,3090单卡)

Yolov3(coco,epochs40)

Detectron2(coco,epochs1000

0,关键点检测)

Detectron2(coco,epochs1000

0,实例分割)

Detectron2(coco,epochs1000

0,目标检测)

SSD(coco,epochs10000)

3时48分

40分(单卡)/32分

(双卡)

40分(单卡)/32分

(双卡)

37分(单卡)/29分

(双卡)

1时12分 1时8分

1时1分

1时5分

3时6分

1时5分

慢42分

快25分(单卡)/33分

(双卡)

快25分(单卡)/33分

(双卡)

快24分(单卡)/32分

(双卡)

慢4分

8.0

40G

12分

28分

8.6

24G

7分

20分钟

少0.6

多16G

慢5分

慢8分

五、 测试结论

在像facebook这样的团队写的detectron2框架下,A100速度明显快于3090。

但像是个人写的SSD或者小团队写的yolov3上,A100速度慢于SSD。

出现此问题的原因可能是相关代码里面有用到的gpu优化相关的技术,可能

在相关gpu优化下,A100才能发挥出应有的性能。例如detectron2里面就用到

了apex库,apex 是由Nvidia维护的一个支持混合精度分布式训练的第三方

pytorch扩展库。 可以用短短三行代码就能实现不同程度的混合精度加速,使

训练时间和显存占用直接缩小一半。不过实际训练的时候显存差异并不大,A100

速度确实是快了很多。

不过Nvidia官方给出的A100的cuda算力是不如3090的。理论上A100速

度应该是慢于3090的。

本文标签: 训练测试性能数据混合