admin管理员组文章数量:1530847
2024年7月15日发(作者:)
A100算力测试
一、 测试目的
测试A100与3090的性能差距;
二、 测试环境
环境为cuda11.1,显卡驱动11.4,pytorch1.9;
GPU利用率均为100%;
使用的网络主要包括以下几种:
(1)、facebookresearch/detectron2框架下的目标检测、实例分割、关键点检测,
主干网络为fasterrcnn;
(2)、ultralytics/yolov3;
(3)、lufficc/SSD;
三、 测试方法
采用相同的数据集,不改变任何参数,查看训练完指定epochs后的时常;
四、 测试结果
A100 3090
A100相对于3090差
距
官方cuda算力
显存
Yolov3(coco128,epochs100)
Yolov3(coco128,epochs300,A
100双卡,3090单卡)
Yolov3(coco,epochs40)
Detectron2(coco,epochs1000
0,关键点检测)
Detectron2(coco,epochs1000
0,实例分割)
Detectron2(coco,epochs1000
0,目标检测)
SSD(coco,epochs10000)
3时48分
40分(单卡)/32分
(双卡)
40分(单卡)/32分
(双卡)
37分(单卡)/29分
(双卡)
1时12分 1时8分
1时1分
1时5分
3时6分
1时5分
慢42分
快25分(单卡)/33分
(双卡)
快25分(单卡)/33分
(双卡)
快24分(单卡)/32分
(双卡)
慢4分
8.0
40G
12分
28分
8.6
24G
7分
20分钟
少0.6
多16G
慢5分
慢8分
五、 测试结论
在像facebook这样的团队写的detectron2框架下,A100速度明显快于3090。
但像是个人写的SSD或者小团队写的yolov3上,A100速度慢于SSD。
出现此问题的原因可能是相关代码里面有用到的gpu优化相关的技术,可能
在相关gpu优化下,A100才能发挥出应有的性能。例如detectron2里面就用到
了apex库,apex 是由Nvidia维护的一个支持混合精度分布式训练的第三方
pytorch扩展库。 可以用短短三行代码就能实现不同程度的混合精度加速,使
训练时间和显存占用直接缩小一半。不过实际训练的时候显存差异并不大,A100
速度确实是快了很多。
不过Nvidia官方给出的A100的cuda算力是不如3090的。理论上A100速
度应该是慢于3090的。
版权声明:本文标题:英伟达GPUA100与3090性能测试及结果数据报告 内容由热心网友自发贡献,该文观点仅代表作者本人, 转载请联系作者并注明出处:https://m.elefans.com/dianzi/1720993536a854620.html, 本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。
发表评论