杂谈3——深度学习中使用GPU的建议|电子爱好者

admin管理员组
文章数量:1535846

文章目录

参考博客
前言
一、GPU参数
二、GPU排名
- 1.原始性能排名
- 2.性价比排名
三、GPU建议
四、Tim Dettmers 的 QA
- 1.我没有足够的钱，即使是你推荐的最便宜的GPU。我能做什么？
- 2.在两台机器上并行化需要什么？
- 3.电脑机箱设计对散热有影响吗？
- 4.我是否需要英特尔CPU来支持多GPU设置？

参考博客

参考博客1

参考博客2

前言

深度学习是一个对计算有着大量需求的领域，从一定程度上来说，GPU的选择将从根本上决定深度学习的体验。

但问题来了，如何选购合适的GPU也是件头疼烧脑的事。

怎么避免踩雷，如何做出性价比高的选择？

一、GPU参数

GPU架构：
不同款的GPU可能采用不同设计架构，比如GeForce 10系列的GTX 1080/1080Ti采用的是Pascal架构，而GeForce 20系列的RTX 2080/2080Ti采用的是Turing架构。不同架构的GPU，即使其他参数差不多，性能差别可能非常大。
显存带宽：
代表GPU芯片每秒与显存交换的数据大小，这个值等于显存位宽*工作频率，单位为GB/秒，该值越大，代表GPU性能越好。Geforce GTX 1080的显存带宽为320GB/秒，而它的升级版Geforce RTX 2080的带宽为448GB/秒。
显存位宽：
代表GPU芯片每个时钟周期内能从GPU显存中读取的数据大小，这个值越大代表GPU芯片和显存之间数据交换的速度越快，性能越好。Geforce GTX 1080的显存位宽为256bit，Geforce RTX 2080Ti显存位宽为352bit。
GPU工作频率：
代表GPU每秒钟工作次数，单位为MHz，跟CPU的频率类似。该值越大代表性能越好。
CUDA核心数量：
CUDA核心数量越大越好，Geforce GTX 1080的CUDA核心数量是2560个。而Geforce RTX 2080Ti的CUDA核心数高达4352个。
功耗：
GPU能耗，像Geforce这种消费级的显卡一般功耗非常高，Geforce GTX 1080的最大功耗为175W，Tesla P4的最大功耗为75W。像那种数据中心大规模级别的GPU部署，低功耗的显卡一年电费能省很多。

二、GPU排名

知名评测博主Tim Dettmers就针对深度学习领域需要怎样的GPU，结合自身经验撰写了万字长文，最后给出了DL领域的推荐GPU。

1.原始性能排名

下面我们可以看到所有GPU的原始相关性能图表。我们看到，H100 GPU的8位性能与针对16位性能优化的旧卡之间存在巨大差距。

2.性价比排名

下面按8位推理作为最优先性能排序，与所有GPU的每美元性能图表。如何利用图表找到适合自己的GPU如下：
1、确定所需的GPU内存量（粗略启发式：用于图像生成领域至少12 GB;用于transformers至少24 GB）
2、虽然8位推理和训练是实验性的，但它将在6个月内成为标准。您可能需要做一些额外的困难编码工作与8位在此期间。你觉得可以吗？如果不是，请选择16位性能。
3、使用（2）中确定的指标，找到具有最高相对性能/美元的GPU，该GPU具有所需的内存量。

我们可以看到，RTX 4070 Ti对于8位和16位推理最具成本效益，而RTX 3080对于16位训练仍然最具成本效益。虽然这些GPU是最具成本效益的，但不一定推荐它们，因为它们没有足够的内存用于许多工作。然而，它可能是开始深度学习之旅的理想卡片。其中一些GPU非常适合Kaggle竞赛，因为人们通常可以依赖较小的模型。由于要在Kaggle比赛中取得好成绩，你的工作方法比模型的大小更重要，因此许多较小的GPU都非常适合Kaggle比赛。

学术和创业服务器的最佳GPU似乎是A6000 Ada GPU（不要与A6000 Turing混淆）。H100 SXM GPU也非常具有成本效益，并且具有高内存和非常强大的性能。如果我为公司/学术实验室构建一个小型集群，我会使用66-80%的A6000 GPU和20-33%的H100 SXM GPU。

三、GPU建议

有一个创建推荐流程图，你可以看到下面（点击这里：互动应用程序）。虽然这个图表在会帮助你，但它也可能可能不太适合你，因为这些选项太机械了。在这种情况下，请尝试查看上面的基准测试，并选择最具成本效益的GPU，这里只是提供一些如何选择的思路。

四、Tim Dettmers 的 QA

1.我没有足够的钱，即使是你推荐的最便宜的GPU。我能做什么？

购买二手GPU。您可以购买一个小型便宜的GPU进行原型设计和测试，然后将完整的实验推广到云端，如vast.ai或Lambda Cloud。如果你只是偶尔在大型模型上训练/微调/推理，并在较小的模型上花费更多的时间进行原型化，这可能是便宜的。

2.在两台机器上并行化需要什么？

如果你想安全起见，如果你想跨机器并行化，你应该至少获得+50Gbits/s的网卡以获得加速。我建议至少有一个EDR Infiniband设置，这意味着至少有50 GBit/s带宽的网卡。两张带电缆的EDR卡在eBay上大约500美元。

3.电脑机箱设计对散热有影响吗？

如果GPU之间至少有一个小的间隙，GPU通常会完全冷却。机箱设计将为您提供1-3 C更好的温度，GPU之间的空间将为您提供10-30 C的改进。底线是，如果GPU之间有空间，冷却就不重要了。如果GPU之间没有空间，则需要正确的冷却器设计（鼓风机风扇）或其他解决方案（水冷，PCIe扩展器），但在任何情况下，机箱设计和机箱风扇都无关紧要。

4.我是否需要英特尔CPU来支持多GPU设置？

我不推荐英特尔CPU，除非你在Kaggle比赛中大量使用CPU（CPU上大量使用线性代数）。不过，即使是在Kaggle比赛中，AMD的CPU仍然很棒。AMD CPU在深度学习方面比英特尔CPU更便宜，也更好。对于一个4x的GPU构建，我的CPU将是一个Threadripper。我们在大学里用Threadrippers构建了几十个系统，它们都运行得很好–还没有任何抱怨。对于8x GPU系统，我通常会选择您的供应商有经验的CPU。在8x系统中，CPU和PCIe/系统可靠性比单纯的性能或成本效益更重要。

本文标签：杂谈深度建议 GPU

版权声明：本文标题：杂谈3——深度学习中使用GPU的建议内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://m.elefans.com/xitong/1726913407a1089999.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

xp系统

电子爱好者 - 最新技术资讯及电子产品介绍！

杂谈3——深度学习中使用GPU的建议

文章目录

参考博客

前言

一、GPU参数

二、GPU排名

1.原始性能排名

2.性价比排名

三、GPU建议

四、Tim Dettmers 的 QA

1.我没有足够的钱，即使是你推荐的最便宜的GPU。我能做什么？

2.在两台机器上并行化需要什么？

3.电脑机箱设计对散热有影响吗？

4.我是否需要英特尔CPU来支持多GPU设置？

更多相关文章

WIN10下通过Anaconda安装TensorFlow-GPU版本和keras

AMD GPU 系列版本信息

AMD EPYC 77637T8377137H127742 双路 8卡GPU服务器aleo

AMD的GPU拿来跑深度学习？Rocm3.0&amp;Pytorch@Ubuntu16编译实录

2019年AI芯片产业深度研究报告

汽车与芯片算力杂谈

Ubuntu18.04系统安装及深度学习框架搭建

深度学习和dqn_深度Q学习方面的改进：双重DQN决斗，优先体验重播和固定…

深度完美 Ghost XP_SP3 软件选择版_2011.09

深度完美 XP SP3 完美优化装机版 V2013

深度技术 GhostXP SP3 2011_06 极速体验版

深度技术GhostXP SP3 2011_06极速体验版

【自我提升】Yolov5使用云端GPU训练模型（谷歌免费版和AutoDL收费版对比）

ROS机器人项目开发11例-ROS Robotics Projects（5）深度学习

全网最全360无死角编写软件测试用例模板【建议收藏】

gpu浮点计算能力floaps_常见GPU的浮点性能

英伟达（NVIDIA）系列显卡（GPU）技术指标对比排行

【智算中心】国产GPU横向对比

linux驱动K10运算卡,GPU推动HPC普及，Tesla K10性能揭秘

收藏！国内外GPU算力厂商详细盘点

发表评论

推荐文章

前端技术搭建俄罗斯方块（内含源码）

黑苹果系统备份还原步骤

艺赛旗 （RPA）使用 selenium 控制 360 安全浏览器

QQ邮箱第三方密码验证失败解决方法

QQ互联API接口失效，第三方网站的死穴

热门文章

苹果系统备份文件服务器地址,苹果备份文件在哪里？苹果怎样恢复备份

亚马逊——不一样的电商公司

浏览器页面的加载过程-回流-重绘-浏览器-服务器

pxe服务器 安装系统,通过PXE网络安装windows系统

360浏览器不能导入html,360浏览器无法导入收藏夹的解决方法

Win7系统提示找不到bderepair.dll文件的解决办法

U盘系统装机

OpenWRT 路由器实现浏览器下载文件到计算机

python数据可视化字段,Python数据可视化

win10系统计算机物理地址,Win10如何修改物理地址？Win10修改网卡物理地址（MAC）的两种方法...

最新文章

win10用计算机分区,win10 GPT磁盘各分区的功能分别是什么？

记win10家庭版系统C:Users用户名中文改英文 详细教程

利用onekey软件制作win10.gho系统文件的小方法

win10user文件夹迁移_win10专业版用户文件夹迁移到另一个驱动器的方法

win10解除usb禁用_Win10专业版中禁用启用USB接口操作方法

win10微软图标点击无反应_win10系统任务栏开始菜单等系统图标点击无反应的解决方法...

win无法进入计算机管理,Win10系统右键“管理”无法打开的解决方法

机械硬盘，Win10系统，磁盘100%

win10禁用笔记本自带键盘、触摸盘

Win10关闭自带键盘的三种方法--亲测第三中命令方式有效（需要重启）

w10无法启用无线服务器,win10系统连接无线提示wlan autoconfig服务无法启动的还原方法...

efi分区能不能删除 win10_大神告诉您Win10系统中EFI分区被删除怎么恢复的详尽解决技巧...

pe卸载win10更新补丁_Win10怎么卸载有问题更新补丁|Win10卸载更新补丁

win10从网络访问计算机没有guest,win10系统设置允许或拒绝从网络中访问本地电脑的解决方法...

macbook air从win10回到macOS Sierra

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

AMD的GPU拿来跑深度学习？Rocm3.0&Pytorch@Ubuntu16编译实录

艺赛旗（RPA）使用 selenium 控制 360 安全浏览器

pxe服务器安装系统,通过PXE网络安装windows系统

记win10家庭版系统C:Users用户名中文改英文详细教程

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载