admin管理员组

文章数量:1530344

Nvidia下一代Blackwell GPU架构和RTX 50系列GPU即将到来,一切按计划进行。尽管Nvidia尚未正式提供任何关于消费级产品何时发布的具体时间框架,但已经有大量关于数据的传言和所谓的泄露。我们也通过一些渠道了解,预计到10月或11月假期季节开始时,我们至少会看到RTX 5090和RTX 5080,然后Blackwell GPU将加入最佳显卡的行列。

Nvidia为其数据中心Blackwell B200 GPU提供了许多核心细节。尽管AI和数据中心版本与消费级产品不可避免地会有所不同,但过去消费级和数据中心Nvidia GPU之间有一些共同点,我们预计这种情况将继续。这意味着我们至少对即将到来的RTX 50系列GPU的某些方面有一些很好的指示。
在接下来的几个月里,我们可以期待更多的细节浮出水面,我们将随着信息的可用性更新本文。以下是我们对Nvidia Blackwell和RTX 50系列GPU的所有了解。

Blackwell和RTX 50系列发布日期

在所有未知数中,至少对于首批Blackwell GPU的发布日期来说是最容易确定的。基于我们个人听到的,我们预计RTX 50系列将在年底前推出,也就是2024年秋季。Nvidia通常在发布新GPU的时间上做得很好,而且在11月和12月假期购物季节之前推出顶级的RTX 5090和5080是最具意义的。

这里有很多历史先例。Ada Lovelace RTX 40系列GPU首次出现在2022年10月。Ampere RTX 30系列GPU首次出现在2020年9月。在此之前,RTX 20系列在2018年9月推出,GTX 10系列在2016年5月/6月推出,GTX 900系列在2014年9月推出。这是Nvidia GPU架构每大约两年推出一次的整整十年,所以Nvidia没有理由现在会改变策略。

这不仅仅是关于两年一次的消费级GPU节奏。Nvidia在2022年3月的年度GPU技术大会(GTC)上首次揭示了Hopper H100架构的核心细节,Ada Lovelace在2024年10月到来。2020年5月,它首次揭示了其Ampere A100架构,几个月后消费者版本也随之而来。2018年也发生了同样的事情,有Volta V100和Turing,2016年有Tesla P100和Pascal。因此,在前四代中,我们首先了解到了数据中心和AI GPU,然后在同年晚些时候揭示并推出了消费者GPU。现在,Nvidia在GTC上再次揭示了Blackwell B200架构,我们可以肯定我们将在今年秋天听到有关消费者版本的消息。

我们不知道Nvidia为下一代Blackwell部件计划的确切名称或型号。我们确信我们将拥有RTX 5090、RTX 5080、RTX 5070和RTX 5060显卡,可能还有一些Ti和/或Super变体的组合。这些变体中的一些无疑将在2025年末或2026年初的中期刷新期间推出。我们也很好奇Nvidia是否会有RTX 5050 GPU——它在40系列和20系列的桌面上跳过了这个级别,尽管后者有GTX 1660和1650类GPU。

鉴于过去模式,我们预计至少顶级的RTX 5090和5080将在今年到达,可能还有RTX 5070 Ti与它们相伴。或者Nvidia可能在今年推出RTX 5090、RTX 5080 Ti和RTX 5080。然后基于型号编号的中端5070和5060 GPU将紧随其后,很可能在2025年的某个时候,按照典型的分阶段发布时间表。

TSMC 4NP,改进版4NM NVIDIA

在2024年GTC上的一个令人惊讶的公告是Blackwell B200将使用TSMC 4NP节点——“4nm Nvidia Performance”。虽然许多工艺名称实际上已经与物理特性脱节,但许多人预计Nvidia将转向TSMC尖端N3工艺技术的改进版。相反,它选择了过去两年已经用于Hopper和Ada Lovelace GPU的现有4N节点的改进。

走这条路当然提供了一些成本节省,尽管TSMC不公开与其各个合作伙伴的合同定价协议。Blackwell B200还使用了一个双芯片解决方案,两个相同的芯片通过10 TB/s NV-HBI(Nvidia高带宽接口)连接。也许Nvidia只是认为这一代不需要转向3nm级节点。

然而,这为AMD甚至Intel打开了大门,可能转向一个更新更先进的工艺节点,将更多高效的晶体管塞进更小的芯片。Nvidia在RTX 30系列上也采取了类似的方法,使用较便宜的三星8N工艺而不是更新更好的TSMC N7。我们将看到这是否对各种下一代GPU的比较产生重大影响。

当然,也有可能Blackwell B200变体将使用TSMC 4NP,而消费级芯片使用不同的节点。这在很大程度上取决于数据中心和消费级变体之间共享了多少核心架构,以及Nvidia是否认为多样化是有益的。在不同的节点甚至制造商方面有先例,例如Ampere A100使用TSMC N7,而RTX 30系列芯片使用三星8N。GTX 10系列Pascal GP107和GP108也在三星的14LPP上制造,而GP102、GP104和GP106在TSMC 16FF上制造。

下一代GDDR7内存

大家都在预想,消费者和专业(即非严格数据中心)Blackwell GPU将转向GDDR7内存。GTC 2024的所有迹象都表明,GDDR7将用于年底前下一代GPU。事实上,三星和SK海力士在GTC上展示了GDDR7芯片,美光也确认GDDR7也在生产中。

当前一代RTX 40系列GPU使用GDDR6X和GDDR6内存,时钟频率从17Gbps到23Gbps不等。GDDR7的目标速度高达36Gbps,比GDDR6X高出50%,比普通GDDR6高出80%。SK海力士表示它甚至将拥有40Gbps的芯片,尽管这些芯片何时可用的确切时间表尚未详细说明。无论如何,这将在所有层面上为显存带宽提供迫切需要的提升。

我们不知道Nvidia是否会真的推出时钟频率为36Gbps的内存卡。过去,它使用了24Gbps的GDDR6X芯片,但时钟频率为22.4Gbps或23Gbps——我们测试的各种RTX 4090显卡中,一些24Gbps的美光芯片显然被降级到21Gbps。所以,Nvidia可能会采用36Gbps的内存,但只以32Gbps运行。这仍然对带宽有健康的提升。

在36Gbps下,384位GDDR7内存接口可以提供1728 GB/s的带宽。这比我们现在在RTX 4090上得到的高出71%。256位接口将提供1152 GB/s,与4080 Super的736 GB/s相比——增加了57%。192位卡将有864 GB/s,即使是128位卡也将达到576 GB/s的原始带宽。Nvidia甚至可能创建一个96位接口,带宽为432 GB/s。

我们还预计Nvidia将继续在Blackwell上使用大L2缓存。这将提供更有效的显存带宽——每次缓存命中都意味着不需要发生的内存访问。以50%的缓存命中率为例,这将使有效显存带宽翻倍,尽管命中率因游戏和设置而异,特别是更高分辨率降低了命中率。

GDDR7还可能解决内存容量与接口宽度的问题。在GTC上,我们得知16Gb芯片(2GB)正在生产中,但24Gb(3GB)芯片也即将推出。具有非二进制容量的较大芯片可能要到2025年才会准备好,但对于那些低端部件来说将更加重要。消费者显卡没有迫切需要超过24GB的内存,尽管我们可能会看到具有512位接口的32GB RTX 5090。即使是16GB通常也足以满足游戏需求,具有256位接口。

然而,24Gb芯片的可用性意味着Nvidia(以及AMD和Intel)可以在192位接口上放置18GB的VRAM,在128位接口上放置12GB,在96位接口上放置9GB。我们甚至可以看到具有256位接口的24GB卡,以及在384位接口上的36GB——专业卡的容量可以翻倍。或者在专业卡上使用512位接口与“蛤壳式”内存(PCB两侧都有芯片),装载高达96GB的VRAM?这对于某些AI和专业工作负载将是极好的。

Blackwell架构几乎肯定会在上一代Ada Lovelace架构的基础上包含各种更新和增强,但目前我们可以确定的不多。但每一代Nvidia GPU都至少包含一些架构升级,我们预计这一轮也会发生同样的情况。

Nvidia在每一代RTX中都提高了潜在的光线追踪性能,Blackwell似乎很可能继续这一趋势。随着更多像《艾伦·韦克2》和《赛博朋克2077》这样的游戏推动全路径追踪——更不用说修改者使用RTX Remix来增强旧的DX10时代游戏的全路径追踪的潜力——对更高光线追踪吞吐量的需要就更大了。可能还会有其他以RT为中心的更新,就像Ada提供的SER(着色器执行重排序)、OMM(不透明度微图)和DMM(位移微网格),但这些变化可能是什么目前还不得而知。

我们所知道的是,数据中心Blackwell B200 GPU再次优化了张量核心,提供了对FP4和FP6数值格式的原生支持。这些将主要对AI推理有用,考虑到消费级GPU将与专业卡双重任务,可以肯定所有的Blackwell芯片也将支持FP4和FP6。(Ada在其张量核心中添加了与Hopper相同的FP8支持。)

Blackwell可能带来哪些其他架构变化?如果Nvidia对于消费级部件坚持使用TSMC 4NP,那么不会有大规模的改变。仍然会有一个大型L2缓存,以及用于DLSS 3帧生成的增强型OFA(光流加速器)当然会保留,它甚至可能得到一些调整以改进它。

Nvidia创建了NV-HBI将两个相同的芯片连接成一个巨大的GPU。这不是SLI而是小芯片风格的接近方法,具有巨大的芯片间带宽,使两个芯片在功能上表现为一个GPU。NV-HBI可能会出现在消费级GPU上吗?可能不是在规格较低的芯片上,但肯定是在最大的芯片上。

对于图形和一般工作负载的原始计算能力,肯定会有相当大的增长,可能更像是30%的提升,而不是50%的增长。例如,RTX 4080提供了40 TeraFLOPS的FP32计算能力,而3080是30 TeraFLOPS(增长了33%),而4090提供了83 TeraFLOPS,相比之下3090是40 TeraFLOPS(增长了107%)。也许Nvidia也会在RTX 5090上“大干一场”,同时在其他地方进行较小的改进。

RTX 50系列定价

RTX 50系列GPU将花费多少?坦白说,考虑到当前的市场状况,我们没有理由期望Nvidia会相对于当前的RTX 40系列GPU降低价格。只要市场能接受,Nvidia将尽可能提高定价。考虑到更高的AI性能和非游戏领域需求的增加,如果下一代保持与当前一代相同的定价结构,我们可能就很幸运了。

同时,我们希望代际定价不会增加。1000美元的“退一步”RTX 4080 Super意味着该级别的GPU现在比RTX 2080 Super时代贵了43%。当然,我们也有699美元的RTX 3080 10GB和1199美元的RTX 3080 Ti在两者之间,当时由于GPU挖矿的普遍性和Covid-19的影响,价格完全混乱。虽然目前用GPU挖某些加密货币在技术上是有利可图的,但WhatToMine将RTX 4090的估计收入定在每天不到1美元——这意味着按当前的汇率和价格,需要大约五年才能回本。

集成显卡已经达到了“足够快”的程度,足以应对大多数常见工作负载,甚至包括适度的游戏——这在移动处理器中尤其正确,桌面选项通常要弱得多。最后一个真正针对预算领域的新GPU是AMD中不太起眼的RX 6500 XT和RX 6400——Nvidia自2019年推出GTX 1650 Super以来就没有制造过新的低于200美元的GPU。

这意味着对于专用桌面显卡,我们现在处在一个“预算”意味着大约300美元,“主流”意味着400-600美元,“高端”是接近1000美元的GPU,“发烧友”部分针对的是1500美元或更高的市场。或者至少,这是Nvidia对这种情况的看法。AMD的GPU通常更实惠一些,特别是当考虑到其他渠道价格时,但Nvidia至少在过去四年中维持了更高的定价结构。

Blackwell推测规格

鉴于我们到目前为止所说的话,应该很清楚,目前关于Blackwell的官方信息非常少。2022年的Nvidia黑客事件给了我们Blackwell的名字和一些潜在的代号,但那是两年前的事了,而且在那段时间里可以发生很多变化。此外,关于Blackwell的细节本来就相当薄弱。

然而,像每次重大GPU架构更新一样,有很多传言和所谓的泄露在流传。一些人声称他们拥有内部信息,其他人似乎是猜测。仅仅举几个最近的例子,一个“泄露”说我们应该期待Blackwell GB202在2023年11月拥有384位内存接口,而在2024年3月的一个更近期的泄露说Blackwell GB202将拥有512位接口。512位接口最近根据其他“泄露”而变得最有可能,但其中一些可能更多是一厢情愿的想法,而不是事实。

另一个值得思考的问题是我们之前提到的Blackwell B200的NV-HBI双芯片解决方案。也许顶级的Blackwell GB202将采取相同的方法,并通过NV-HBI连接两个GB203芯片。这将允许Nvidia在同时提供更高水平的性能的同时,控制最快芯片的实际尺寸。

我们将在目前的推测规格表中包括GB202的两种可能变体,以及其他地方的估计名称和规格。问号代表我们目前没有任何确凿的信息。

我们基本上插入了一些看起来合理的数字,并将它们塞入了通常的Nvidia公式,给出了基于每个SM的128 CUDA、1 RT和4张张量核心的CUDA、RT和张量核心计数。(传统上)每个SM还有四个TMU(纹理映射单元)。Nvidia可以很容易地调整启用的SM计数,所以最终规格可能直到发布前几个月才会确定。

许多潜在的规格来自最近的传言,这些传言可能只是猜测。虽然GB202大芯片是个事实,但它的SM计数是所谓的GB203的两倍多,这很有意思。这个差距太大了,几乎不可能是真的。我们仍然倾向认为GB202使用两个融合在一起的GB203芯片,鉴于我们在Blackwell B200上看到的情况。其他方面基本上都是使用Nvidia目前拥有的RTX 40系列卡的占位符。这主要适用于L2缓存大小、功耗和定价等。

目前,时钟速度估计是一个静态的2.5 GHz GPU时钟和36Gbps GDDR7时钟——显然还有20Gbps的GDDR6 GB207芯片。这是根据最近的“泄露”。我们真的希望在所有具有192位或更窄内存接口的GPU上看到3GB芯片,以提高VRAM容量。

随着传言的发展,我们将在未来几个月看到官方的产品名称和规格,我们最终肯定会拥有五种不同的显卡。

未来的GPU格局

Nvidia不会是下一代显卡的唯一竞争者。有大量证据表明,我们也将在今年秋天看到Intel的Battlemage发布,AMD RDNA 4也将在某个时候到来——也许不是今年,但我们预计最迟在2025年初。

尽管肯定会有竞争,但Nvidia在过去十年中一直主导着GPU领域。目前,Steam硬件调查显示Nvidia拥有78%的显卡市场份额,AMD为14.6%,Intel仅为7.2%(还有0.12%的“其他”)。然而,这没有完全说明问题。

AMD和Intel都制造集成显卡,可以肯定的是,他们各自的市场份额中有很大一部分来自没有专用GPU的笔记本电脑和台式机。AMD在专用GPU中最高的市场份额来自RX 580,排在第31位,占0.81%。Intel甚至在调查中没有列出专用GPU。对于过去三代AMD和Nvidia专用GPU,Steam调查表明Nvidia拥有92.6%的市场份额,而AMD只有7.4%。

当然,尽管AMD的市场份额可能比调查所显示的要高,但排行榜顶端仍旧是Nvidia显卡的天下。JPR的最新报告指出,Nvidia控制了88%的附加GPU市场,相比之下AMD仅有12%,这是Nvidia目前主导地位的另一个例证。

我们从Intel那里了解到,它打算让Battlemage在主流和预算领域的图形市场中竞争。这意味着它将定位在大约200到600美元的价格区间。然而,Intel最近并没有透露太多信息,所以这一策略可能已经改变。目前,AMD在性能、驱动程序和效率方面都有明显提升,但我们仍在等待其GPU经历它们的“Ryzen时刻”——到目前为止,GPU芯片封装并没有证明是一个巨大的成功。

目前,Nvidia提供了更高的整体性能和更高的光线追踪性能。它还在AI领域占据主导地位,拥有相关技术,如DLSS——包括DLSS 3.5光线重建技术和其他功能。目前这是Nvidia的主赛道,它很难输掉,AMD和Intel要付出很多努力才能缩小差距并获得显著的市场份额,至少在集成图形领域之外是这样。另一方面,Nvidia的高价格和对非游戏市场的AI更重的关注可能为竞争对手留下了空间,我们今年晚些时候将看到芯片的最终表现如何。

以上内容非官网信息,仅供参考,对GPU有兴趣的朋友,欢迎一起交流。

本文标签: 架构期待系列BlackwellNVIDIA