admin管理员组

文章数量:1531662

系列概述:

分为硬件部分x1和软件部分x3

硬件篇一:主机八大部件选型

软件篇一:AI开发过程中常用的开发命令、软件安装等

软件第 2 部分:软件:使用

软件第 3 部分:软件:使用 VS Code

本文主要是帮助大家搭建一个高性能、高性价比的AI开发硬件平台。 如何不把钱浪费在不必要的硬件上,合理搭配硬件配置以节省预算,就是本文要讨论的。 如果预算充足,笔者建议购买AI主机。 一方面可以用来存储和积累日常代码。 另一方面,它可以每天运行一些竞赛和调试来学习其他人的库。

目录:购买个人笔记本

在AI训练和测试中,打开电脑需要很长时间。 笔记本电脑并不是为此设计的,从散热和系统稳定性的角度来看都不适合。 例如,如果你用笔记本电脑跑一天的实验,如果电脑温度过高,就会死机,不仅浪费时间,还会损坏电脑。 而且笔记本设计紧凑,主板、固态等高温运行会影响寿命,甚至造成永久性损坏。

对于通勤建议,作者建议您的车型包括:

MacBook Air M1 16 + 256
MacBook Pro M1 16 + 256

(直接用MAC跑模型之类的东西还是很苦恼的,跑起来就够用了,所以一般都是用来连接服务器的,毕竟操作说明比用win好用。 M1芯片的MBP确实很强大,而且最重要的是发热并不严重,连Air版本都没有风扇,不过新款已经配备了M2,所以也可以。考虑新模型!

以上模型推荐给需要大型软件或运行大量数据的理工科学生。 对于计算机专业来说,i5就差不多够用了,但i7会持续更长时间。 需要渲染的设计/架构等直接使用MAC BOOK PRO,或者i7处理器。

(根据自己的实力购买,毕竟学习计算机的一些学习需求可以借助其他工具来实现)

自己组装——购买主机八大部件

本部分主要介绍主机GPUx1/GPUx2(人工智能专业)的配置。 GPUx4/GPUx8的配置将在1.8章中简单介绍。 首先,我将提出作者提出的结论。 3080版本的总数约为13000个,3090版本的总数约为21000个(显卡添加约6000个更改为3090,电源更改为1000w,其他无需更改)。

2.1 CPU/主板

参考:2022 年笔记本电脑 CPU 天梯图文章

CPU天梯图是根据跑分对CPU进行排序,进行综合性能比较,反映CPU性能优劣的量化标准。

CPU主要有两个品牌:Intel(接触式接口)和AMD(针式接口)。 本节主要介绍Intel/AMD主流系列,其他系列将在2.6章节介绍。

例如:

不同CPU接口的主板也不同,不同级别的CPU搭配不同级别的主板芯片组。

2.1.1 intel-酷睿12代系列

参考:12代酷睿电脑配置文章

Intel 12代酷睿系列CPU需要搭配不同的后缀来代表不同的含义,例如:

所需主板型号

2.1.2 AMD-Ryzen 5000系列

参考:AMD Ryzen 5000系列介绍文章

AMD Ryzen 5000系列,后缀含义

所需主板型号

2.1.3 主板介绍

较好的主板品牌:华硕、技嘉、微星。 您可以选择中高端的。 不同主板版本,即尺寸:

EATX/ATX:需要大机箱以获得最佳散热效果

mATX:更适合

ITX:可扩展性和散热问题

在AI训练和测试应用中,CPU的主要考虑因素是核心数和线程数。 笔者建议您购买AMD 5900x型号,可以散装或盒装运输。 CPU故障率极低。 这里之所以不推荐12代酷睿,是因为系统中的版本适配没有做好,比如大小核心、小分配任务等。 故障等等...另外,关于主板的选择,如果你刚进入研究生,要在学校呆几年,可以配置一个大的ATX机箱,放在你的工作站里。 如果想放在公司的话,建议配置一下。 mATX加一个小箱子。 另外主板必须配置蓝牙/wifi,这样就只剩下一个PCIE插槽了,以后扩展硬盘也很方便。

2.2 CPU散热器

CPU 散热器有两种类型

在AI训练和测试中,CPU散热主要考虑的是噪声。 风冷的噪音太大,水冷的风险是漏电。 不过现在水冷有5年质保和漏电保证,再加上几款新的专利技术,不用担心漏电。 笔者建议您选择240/360水冷的推荐品牌。 预算充足的同学可以将水冷散热风扇更换为风扇进行散热。 如果实在担心漏液,可以考虑猫头鹰的风冷系列。 。 (当然风扇非常昂贵......但它们在高风扇速度下非常安静!

2.3 硬盘和内存

更好的硬盘品牌:三星、铠侠和西部数据。 硬盘按照接口主要分为两种。

1)PCIE3.0/4..0

2)SATA:太慢,不推荐

在AI训练和测试中,硬盘主要考虑的是速度,其次是容量。 有时GPU内存的利用率很低,这很大程度上是硬盘IO瓶颈。 由于B550/B660主板上仅预留了2个PCIE接口,因此笔者推荐2T NVME PCIE3.0(系统安装)+1T NVME PCIE4.0。 存储有价值的数据集和训练没有问题。 如果将来想要增加容量,只需在 PCIE 扩展卡上添加额外的固态即可。

其次,关于容量,例如138G。 可可27G。 1T+2T的配置完全够用。

PCIE扩展卡的使用

#如何格式化新硬盘并挂载到新目录

df –h # 查看分区和挂载点

fdisk –l # 查看服务器上所有硬盘的状态(已挂载和未挂载)

mkfs -t ext4 -c /dev/sdb1 # 格式化硬盘

mount /dev/ /home/wlsh/ssd # 创建新目录作为新的硬盘挂载点

vim /etc/fstab # 开机自动挂载

/dev/ /ssd ext4 0 0

更好的内存品牌:、 和 GQ

原则:显存容量>2*GPU显存,越高越好

在AI训练和测试中,内存部分主要考虑的是容量。 数据处理过程是硬盘=>内存=>GPU内存。 一定的内存可以保证我们能够很好的进行数据预处理。 频率不需要太高。 建议频率适中,3200就足够了,考虑到后续参加机器学习比赛的需要。 如果预算不够,32G就够了。

参考:GPU算力排名

GPU和AI训练和测试相关参数:

由于比特币崩盘,这里推荐两款:3080 12G(某型号售价5千)/3090 24G(某型号售价1万)。 笔者建议预算充足的同学选择3090,市面上任何品牌都可以。

笔者实验室曾出现过2次+1200w主机满载运行模型时断电重启的问题。 经检查,是启动时功率过大造成的。

建议:3080 12G选择850w,3090选择1000w

品牌: 振华、海韵均有

补充知识

GPU架构演进史

在第三代架构中,FP64单元与FP32单元的比例为1:3或1:24。

在第四代架构中,这个比例下降到只有1:32。

在第五代架构中,这一比例提升至1:2,但在低端机型中仍保持在1:32。

其他单位

从目前的实践来看,AI算法的精度要求远低于传统HPC算法。 因此,我们看到很多AI芯片主要强调FP16或INT8的精度。 可以说,低位精度为当前AI核心硬件效率的提升做出了巨大的贡献。

2.5 底盘

参考:如何分配机箱风扇?文章

在AI训练和测试中,搭建合理的机箱风道以保证CPU和显卡的温度非常重要。 在确定了自己的机箱需求后,笔者建议大家在机箱内安装几个风扇组件以及合理的风道。

2.6 其他

GPUx4或GPUx8:在多GPU的情况下,保证机器的稳定性至关重要。 在这种情况下,您必须选择更高系列的CPU。

1) 英特尔至强系列4210R、5218R、6230R

2) AMD EPYC(霄龙)系列 7320、7402、74F3...

这些CPU支持ECC自动纠错内存、支持更多CPU通道、支持更高的PCIE通道等。

云服务器推荐

租卡3090的价格一般是2R+/h,也就是每天60+,还是很贵的。 如果暂时没有预算,我推荐同学使用colab和恒源云。 Colab官方也有很好的入门教程。

本文标签: 硬件系列软件