NVIDIA GeForce RTX 3080全球首发评测|电子爱好者

admin管理员组
文章数量:1531939

2024年5月10日发(作者：)

NVIDIA GeForce RTX 3080全球首发评测

作者：《微型计算机》评测室

来源：《微型计算机》2020年第19期

RTX 30系列產品综合概述

RTX30系列首发产品有三款，也就是前文介绍的GeForceRTX3090、GeForceRTX3080和

GeForceRTX3070。其中最先上市的是RTX3080，国内上市时间为9月17日，价格为5499元

起。随后是RTX3090，上市时间为9月24日，国内定价11999元起。最晚上市的是

RTX3070，上市时间是10月15日，国内定价仅为3899元起。从参数对比来看，RTX30系列

最显著的变化便是换用了三星的8nm工艺，同时CUDA核心的数量大幅度增长，单精度计算

性能、张量核心性能暴增。另外，RTX30系列的功耗也显著增加，顶级的RTX3090和高端的

RTX3080在TDP功耗上均突破了300W，难怪NVIDIA建议玩家为RTX3090、RTX3080配备

750W以上的电源。

RTX30系列在工艺上采用的是三星的8nm工艺。和之前NVIDIA在顶级产品上偏爱台积

电的工艺不同的是，Ampere显卡所使用的制程工艺的确有点出乎大众预料。三星8nm工艺在

实际的工艺代次上是属于10nm工艺的改进版本，属于典型的半代工艺。其存在两个版本，分

别是8nmLPP和8nmLPU。但是三星没有给出更多有关8nmLPU的数据，可能和三星之前宣布

的高密度库有关。NVIDIA本次RTX30系列显卡，有可能选择的是三星8nm工艺的LPU版

本，但是目前没有更多消息可供证明。

在采用了三星8nm工艺后，相比上代同为面向图形的TU102核心，GA102核心的晶体管

数量增加了大约50%，但是整体芯片面积却降低了17%。RTX30系列GPU所使用的8nm工艺

的晶体管密度为4458万/mm2，之前RTX20系列使用12nmFFN工艺的晶体管密度为2467万

/mm2，新工艺的晶体管密度是之前工艺的1.8倍。

性能飞跃式增长，RTX30系列GPU架构解读

RTX30系列GPU在架构上最大的变化是改用了全新的安培（Ampere）架构。有关安培架

构的内容，本刊在之前的《来自540亿晶体管的力量—全新NVIDIA安培架构和A100GPU深

入解读》一文中已经做出了比较详细的解读。不过，之前NVIDIA在发布A100GPU的时候，

无论是GPU本身还是架构设计都更偏向于计算，在面向图形应用时，偏向计算的架构显然是

无法适应图形计算的需求的，因此NVIDIA在同为安培架构、面向不同计算场合的芯片设计

上，采用了针对性的改进。可以这样理解，目前我们看到的RTX30系列显卡，采用的是面向

图形的安培架构，它和面向计算的安培架构有一定的相似之处，但是侧重点完全不同。

GA102和GA104的宏观架构

NVIDIA给出了完整版本GA102芯片的信息。根据这些内容显示，GA102芯片前端设计

PCIe4.0总线控制器和常见的极线程分发器（GigaThreadEngine），数据通过这两个端口进入

GPC中。GA102内部一共包含了7个GPC，每个GPC内部包含6个TPC，一共拥有42个

TPC。每个TPC包含2个SM模块和一个PolyMorphEngine（几何处理引擎，用于曲面细分计

算），也就是84个SM模块和42个PolyMorphEngine。在安培架构上，NVIDIA定义一个SM

模块内拥有等效128个CUDA核心或者流处理器，那么完整版本的GA102就包含了等效

10752个CUDA核心。显存控制器方面，GA102拥有12组显存控制器，每组32bit，组成了

384bit的规格，后端还包括用于全局连接的高速Hub和4通道NVLink总线。

值得注意的是，GA102内部还有168个FP64单元（每个SM内有2个），但是在宏观架

构图中并未显示。FP64的计算性能是FP32单元的1/64。在这里加入少量FP64单元的目的主

要是考虑到部分程序中有少量FP64计算任务，以及张量核心也有部分FP64数据需要计算。当

然，相比A100GPU中庞大的FP64规模，这里的FP64单元仅仅是为满足基本计算需求而设

定。

继续向下深入探讨的话，安培核心的SM，除了包含等效128个CUDA核心外，还包含4

个第三代Tensor Core张量核心、256KB的寄存器、4个纹理单元、1个第二代光线追踪核心以

及128KB的L1/共享缓存。另外核心内部还为每个显存控制器配备了512KB的L2缓存，总计

6144KB。

再来看GA10 4。RT X 3070使用的芯片代号是GA10 4-300- A1，按照惯例，NVIDIA会使

用GXXX- 400作为比较接近完整版芯片的产品代号。根据NVIDIA数据，GA104的完整版本

有6个GPC、24个TCP和48个SM，等效6144个CUDA核心。GA104-300-A1则屏蔽了1个

TPC，最终只包含了6个GPC、23个TCP和46个SM，以及等效5888个CUDA核心，所以

RTX 3070SUPER或RTX 3070 Ti理论上应该是有空间的。

总的来说，从宏观架构来看，安培架构和之前的图灵架构存在非常相似的地方，这也是

NVIDIA使用多年的、GPC-TPC- SMCUDA核心四级层级的继承和发展。今天我们看到的面向

图形的安培架构和面向计算的安培架构其差别之大甚至接近两代GPU的架构差异，虽然部分

技术可能来源相同，但由于最终目标不同，因此两者的差异鲜明。

SM模块解析

SM（Streaming Multi- processer，流式多处理器模块）模块一直是NVIDIA GPU的计算核

心。在之前面向计算的A100上，SM模块的基本配置情况是1个完整的SM模块包含了64个

INT 32单元、64个FP32单元（也就是CUDA核心）以及32个FP64单元、4个第三代张量核

心，分别针对传统的数据处理、双精度计算和AI计算三种任务。不过，在新的GA10X核心的

安培架构上，由于计算任务的变化，和A100的SM模块相比，GA10X的SM模块也有了巨大

的变化。

NVIDIA从RTX 20系列开始，就将图形计算部分划分为三个类型，那就是传统图形数据

计算、光线追踪计算和AI计算。在图灵架构上，这三个部分使用的分别是图灵架构SM、第

一代RTCore以及第二代Tensor Core，后两者都是NVIDIA的独家方案。在新的面向图形计算

的安培架构中，这三个计算任务依旧被完整地保留了下来，并共同组成了全新的安培SM模

块。

面向图形的安培SM模块的基本配置和之前的图灵架构在宏观结构上是基本相同的。整个

SM中都包含了4个计算单元，128KB的L1缓存和共享内存以及4个纹理单元、RT核心等。

其主要变化发生在计算单元内部。

在之前的图灵SM模块的单个计算单元配置上（4个SM计算单元组成一个SM模块），

每个SM模块中的计算单元拥有1个warp调度单元和1个派遣单元，16384×32bit寄存器、16

个FP32内核和16个INT32内核，2个张量核心以及后端的LD/ST单元、特殊功能单元

（Special Function Unit，简称SFU）等。

在新的GA10X安培SM的计算单元内部，依旧配置了1个warp调度单元和1个派遣单

元、16384×32bit寄存器和后端LD/ST、SFU单元，但是在计算的部分却包含了1组16个可自

由执行FP32和INT32计算的双功能计算单元（ALU）—它们既可以完成FP32计算，又可以

完成INT32计算，另外还包含了1组16个FP32计算单元和1个新的第三代张量核心。

由于SM设计的变化，因此安培架构相比图灵架构显示出巨大的功能性和性能导向差异。

最典型的就是CUDA核心的数量方面，NVIDIA一直以来都将1个FP32单元作为1个CUDA

核心来计数和宣传，但是在本次使用了INT32和FP32双功能设计、并额外增加了FP32单元

后，可宣传的CUDA核心数量就大大增加了。比如同为4个SM计算单元组成的SM模块，

GA10X安培架构拥有等效128个CUDA核心、面向计算的A1xx安培架构拥有64个CUDA核

心，图灵架构也拥有64个CUDA核心，这也是NVIDIA宣传GA10X安培架构SM模块2倍

于图灵架构的数字计量来源。

但是，这并不意味着安培架构在FP32计算性能上随时都能保证达到图灵架构的2倍，毕

竟安培架构的每个SM模块中只有64个“纯粹”的FP32单元，其余64个是双功能单元。这意

味着当计算任务的数据格式以混合INT和FP格式占据这些单元时，安培架构的SM模块每周

期所呈现的FP计算能力就会根据计算任务而变化，最极端情况下会降低至和图灵架构相同

（假设INT32占据了所有64个双功能单元），或者呈现图灵架构的2倍（全部都是FP32计

算）。

考虑到目前复杂的图形计算任务，采用FP32+INT32混组核心的设计的优势是能够带来每

晶体管性能的显著提升。毕竟计算任务并不会老老实实地按照设计规范出现。举例来说，一个

计算任务中包含了20个INT计算和80个FP计算时，在图灵架构下，20个INT计算任务在1

个时钟周期内就可以完成，但是80个FP计算就需要2个时钟周期才能完成。其中部分INT32

核心在此时就会被闲置，每晶体管性能就会降低。换到安培架构，20个INT计算任务会分配

20个双功能核心的INT32功能完成（剩余48个双功能核心），其余80个计算任务中的64个

可以交给固定FP32核心，另外16个可以交给双功能核心的FP32功能完成。那么，1个时钟

周期就可以完成所有的计算任务，效率自然能得到大幅度提升。

总的来看，在计算任务全部都是FP32的情况下，新的安培架构的1个SM可以视同拥有

128个FP32计算单元、4个第三代张量核心和1个RT核心。因此，NVIDIA特别提到，现代

游戏工作负载具有广泛的处理需求，许多工作负载混合使用FP32算术指令（例如FFMA、浮

点加法FADD、浮点乘法FMUL等），以及许多更简单的整数指令，例如用于寻址和获取数

据算法，或者用于处理结果等。因此，在图灵架构上，NVIDIA增加了新的计算路径后，大幅

度提升了这类算法的自由度和工作效能，从而带来了不错的性能优势。在安培架构上，这样的

设计被强化了，浮点计算可以根据需求选择任何一组计算单元（计算路径），根据Shader指

令和应用程序设计的不同，性能将有所变化，具体取决于指令的应用方式。比如光线追踪降噪

计算全部都是FP指令，能够充分利用新的双功能计算单元和传统的FP32单元，显著提升性

能。

此外，在L1缓存部分，安培架构的SM L1共享缓存应用下的带宽相比图灵架构翻倍，安

培架构的SM共享缓存带宽为每时钟周期128bytes，而图灵架构为每时钟周期64bytes。这样一

来，RTX 3080的总L1带宽为219GB/s，RTX 2080 SUPER仅有116GB/s。

在缓存方面，安培架构的SM缓存容量从之前的96KB提升到了128KB，容量增大了

33%，这有助于存放更多的数据在L1缓存中，减少数据不断地从外部存储调用的频率，能提

高性能并降低功耗。完整的GA102包含10752KB的L1缓存，对比TU102为6912KB。此

外，NVIDIA还给出了L1和共享缓存的容量配置表，L1和共享缓存的可配置方案如下：

128KB L1 + 0 KB共享内存

120KB L1 + 8 KB共享内存

112KB L1 + 16 KB共享内存

96KB L1 + 32 KB共享内存

64KB L1 + 64 KB共享內存

28KB L1 + 100 KB共享内存

NVIDIA特别提到，对于图形工作负载和异步计算，GA102将分配6 4KB L1数据纹理缓

存（相比之下图灵架构仅能分配32KB）、48KB共享内存和16 KB保留用于各种图形管线操

作。

光线追踪模块

NVIDIA从RTX 20系列开始，就将图形计算部分划分为三个类型，那就是传统图形数据

计算、光线追踪計算和AI计算。在图灵架构上，这三个部分使用的分别是图灵架构SM、第

一代RTCore以及第二代Tensor Core，后两者都是NVIDIA的独家方案。在新的面向图形计算

的安培架构中，这三个计算任务依旧被完整地保留了下来，并共同组成了全新的安培SM模

块。

面向图形的安培SM模块的基本配置和之前的图灵架构在宏观结构上是基本相同的。整个

SM中都包含了4个计算单元，128KB的L1缓存和共享内存以及4个纹理单元、RT核心等。

其主要变化发生在计算单元内部。

在之前的图灵SM模块的单个计算单元配置上（4个SM计算单元组成一个SM模块），

每个SM模块中的计算单元拥有1个warp调度单元和1个派遣单元，16384×32bit寄存器、16

个FP32内核和16个INT32内核，2个张量核心以及后端的LD/ST单元、特殊功能单元

（Special Function Unit，简称SFU）等。

在新的GA10X安培SM的计算单元内部，依旧配置了1个warp调度单元和1个派遣单

元、16384×32bit寄存器和后端LD/ST、SFU单元，但是在计算的部分却包含了1组16个可自

由执行FP32和INT32计算的双功能计算单元（ALU）—它们既可以完成FP32计算，又可以

完成INT32计算，另外还包含了1组16个FP32计算单元和1个新的第三代张量核心。

由于SM设计的变化，因此安培架构相比图灵架构显示出巨大的功能性和性能导向差异。

最典型的就是CUDA核心的数量方面，NVIDIA一直以来都将1个FP32单元作为1个CUDA

核心来计数和宣传，但是在本次使用了INT32和FP32双功能设计、并额外增加了FP32单元

后，可宣传的CUDA核心数量就大大增加了。比如同为4个SM计算单元组成的SM模块，

GA10X安培架构拥有等效128个CUDA核心、面向计算的A1xx安培架构拥有64个CUDA核

心，图灵架构也拥有64个CUDA核心，这也是NVIDIA宣传GA10X安培架构SM模块2倍

于图灵架构的数字计量来源。

但是，这并不意味着安培架构在FP32计算性能上随时都能保证达到图灵架构的2倍，毕

竟安培架构的每个SM模块中只有64个“纯粹”的FP32单元，其余64个是双功能单元。这意

味着当计算任务的数据格式以混合INT和FP格式占据这些单元时，安培架构的SM模块每周

期所呈现的FP计算能力就会根据计算任务而变化，最极端情况下会降低至和图灵架构相同

（假设INT32占据了所有64个双功能单元），或者呈现图灵架构的2倍（全部都是FP32计

算）。

考虑到目前复杂的图形计算任务，采用FP32+INT32混组核心的设计的优势是能够带来每

晶体管性能的显著提升。毕竟计算任务并不会老老实实地按照设计规范出现。举例来说，一个

计算任务中包含了20个INT计算和80个FP计算时，在图灵架构下，20个INT计算任务在1

个时钟周期内就可以完成，但是80个FP计算就需要2个时钟周期才能完成。其中部分INT32

核心在此时就会被闲置，每晶体管性能就会降低。换到安培架构，20个INT计算任务会分配

20个双功能核心的INT32功能完成（剩余48个双功能核心），其余80个计算任务中的64个

可以交给固定FP32核心，另外16个可以交给双功能核心的FP32功能完成。那么，1个时钟

周期就可以完成所有的计算任务，效率自然能得到大幅度提升。

总的来看，在计算任务全部都是FP32的情况下，新的安培架构的1个SM可以视同拥有

128个FP32计算单元、4个第三代张量核心和1个RT核心。因此，NVIDIA特别提到，现代

游戏工作负载具有广泛的处理需求，许多工作负载混合使用FP32算术指令（例如FFMA、浮

点加法FADD、浮点乘法FMUL等），以及许多更简单的整数指令，例如用于寻址和获取数

据算法，或者用于处理结果等。因此，在图灵架构上，NVIDIA增加了新的计算路径后，大幅

度提升了这类算法的自由度和工作效能，从而带来了不错的性能优势。在安培架构上，这样的

设计被强化了，浮点计算可以根据需求选择任何一组计算单元（计算路径），根据Shader指

令和应用程序设计的不同，性能将有所变化，具体取决于指令的应用方式。比如光线追踪降噪

计算全部都是FP指令，能够充分利用新的双功能计算单元和传统的FP32单元，显著提升性

能。

此外，在L1缓存部分，安培架构的SM L1共享缓存应用下的带宽相比图灵架构翻倍，安

培架构的SM共享缓存带宽为每时钟周期128bytes，而图灵架构为每时钟周期64bytes。这样一

来，RTX 3080的总L1带宽为219GB/s，RTX 2080 SUPER仅有116GB/s。

在缓存方面，安培架构的SM缓存容量从之前的96KB提升到了128KB，容量增大了

33%，这有助于存放更多的数据在L1缓存中，减少数据不断地从外部存储调用的频率，能提

高性能并降低功耗。完整的GA102包含10752KB的L1缓存，对比TU102为6912KB。此

外，NVIDIA还给出了L1和共享缓存的容量配置表，L1和共享缓存的可配置方案如下：

128KB L1 + 0 KB共享内存

120KB L1 + 8 KB共享内存

112KB L1 + 16 KB共享内存

96KB L1 + 32 KB共享内存

64KB L1 + 64 KB共享内存

28KB L1 + 100 KB共享内存

NVIDIA特别提到，对于图形工作负载和异步计算，GA102将分配6 4KB L1数据纹理缓

存（相比之下图灵架构仅能分配32KB）、48KB共享内存和16 KB保留用于各种图形管线操

作。

光线追踪模块

NVIDIA从RTX 20系列开始，就将图形计算部分划分为三个类型，那就是传统图形数据

计算、光线追踪计算和AI计算。在图灵架构上，这三个部分使用的分别是图灵架构SM、第

一代RTCore以及第二代Tensor Core，后两者都是NVIDIA的独家方案。在新的面向图形计算

的安培架构中，这三个计算任务依旧被完整地保留了下来，并共同组成了全新的安培SM模

块。

面向图形的安培SM模块的基本配置和之前的图灵架构在宏观结构上是基本相同的。整个

SM中都包含了4个计算单元，128KB的L1缓存和共享内存以及4个纹理单元、RT核心等。

其主要变化发生在计算单元内部。

在之前的图灵SM模块的单个计算单元配置上（4个SM计算单元组成一个SM模块），

每个SM模块中的计算单元拥有1个warp调度单元和1个派遣单元，16384×32bit寄存器、16

个FP32内核和16个INT32内核，2个张量核心以及后端的LD/ST单元、特殊功能单元

（Special Function Unit，简称SFU）等。

在新的GA10X安培SM的计算单元内部，依旧配置了1个warp调度单元和1个派遣单

元、16384×32bit寄存器和后端LD/ST、SFU单元，但是在计算的部分却包含了1组16个可自

由执行FP32和INT32计算的双功能计算单元（ALU）—它们既可以完成FP32计算，又可以

完成INT32计算，另外还包含了1组16个FP32计算单元和1个新的第三代张量核心。

由于SM设计的变化，因此安培架构相比图灵架构显示出巨大的功能性和性能导向差异。

最典型的就是CUDA核心的数量方面，NVIDIA一直以来都将1个FP32单元作为1个CUDA

核心来计数和宣传，但是在本次使用了INT32和FP32双功能设计、并额外增加了FP32单元

后，可宣传的CUDA核心数量就大大增加了。比如同为4个SM计算单元组成的SM模块，

GA10X安培架构拥有等效128个CUDA核心、面向计算的A1xx安培架构拥有64个CUDA核

心，图灵架构也拥有64个CUDA核心，这也是NVIDIA宣传GA10X安培架构SM模块2倍

于图灵架构的数字计量来源。

但是，这并不意味着安培架构在FP32计算性能上随时都能保证达到图灵架构的2倍，毕

竟安培架构的每个SM模块中只有64个“纯粹”的FP32单元，其余64个是双功能单元。这意

味着当计算任务的数据格式以混合INT和FP格式占据这些单元时，安培架构的SM模块每周

期所呈现的FP计算能力就会根据计算任务而变化，最极端情况下会降低至和图灵架构相同

（假设INT32占据了所有64个双功能单元），或者呈现图灵架构的2倍（全部都是FP32计

算）。

考虑到目前复杂的图形计算任务，采用FP32+INT32混组核心的设计的优势是能够带来每

晶体管性能的显著提升。毕竟计算任务并不会老老实实地按照设计规范出现。举例来说，一个

计算任务中包含了20个INT计算和80个FP计算时，在图灵架构下，20个INT计算任务在1

个时钟周期内就可以完成，但是80个FP计算就需要2个时钟周期才能完成。其中部分INT32

核心在此时就会被闲置，每晶体管性能就会降低。换到安培架构，20个INT计算任务会分配

20个双功能核心的INT32功能完成（剩余48个双功能核心），其余80个计算任务中的64个

可以交给固定FP32核心，另外16个可以交给双功能核心的FP32功能完成。那么，1个时钟

周期就可以完成所有的计算任务，效率自然能得到大幅度提升。

总的来看，在计算任务全部都是FP32的情况下，新的安培架构的1个SM可以视同拥有

128个FP32计算单元、4个第三代张量核心和1个RT核心。因此，NVIDIA特別提到，现代

游戏工作负载具有广泛的处理需求，许多工作负载混合使用FP32算术指令（例如FFMA、浮

点加法FADD、浮点乘法FMUL等），以及许多更简单的整数指令，例如用于寻址和获取数

据算法，或者用于处理结果等。因此，在图灵架构上，NVIDIA增加了新的计算路径后，大幅

度提升了这类算法的自由度和工作效能，从而带来了不错的性能优势。在安培架构上，这样的

设计被强化了，浮点计算可以根据需求选择任何一组计算单元（计算路径），根据Shader指

令和应用程序设计的不同，性能将有所变化，具体取决于指令的应用方式。比如光线追踪降噪

计算全部都是FP指令，能够充分利用新的双功能计算单元和传统的FP32单元，显著提升性

能。

此外，在L1缓存部分，安培架构的SM L1共享缓存应用下的带宽相比图灵架构翻倍，安

培架构的SM共享缓存带宽为每时钟周期128bytes，而图灵架构为每时钟周期64bytes。这样一

来，RTX 3080的总L1带宽为219GB/s，RTX 2080 SUPER仅有116GB/s。

在缓存方面，安培架构的SM缓存容量从之前的96KB提升到了128KB，容量增大了

33%，这有助于存放更多的数据在L1缓存中，减少数据不断地从外部存储调用的频率，能提

高性能并降低功耗。完整的GA102包含10752KB的L1缓存，对比TU102为6912KB。此

外，NVIDIA还给出了L1和共享缓存的容量配置表，L1和共享缓存的可配置方案如下：

128KB L1 + 0 KB共享内存

120KB L1 + 8 KB共享内存

112KB L1 + 16 KB共享内存

96KB L1 + 32 KB共享内存

64KB L1 + 64 KB共享内存

28KB L1 + 100 KB共享内存

NVIDIA特别提到，对于图形工作负载和异步计算，GA102将分配6 4KB L1数据纹理缓

存（相比之下图灵架构仅能分配32KB）、48KB共享内存和16 KB保留用于各种图形管线操

作。

光线追踪模块

NVIDIA从RTX 20系列开始，就将图形计算部分划分为三个类型，那就是传统图形数据

计算、光线追踪计算和AI计算。在图灵架构上，这三个部分使用的分别是图灵架构SM、第

一代RTCore以及第二代Tensor Core，后两者都是NVIDIA的独家方案。在新的面向图形计算

的安培架构中，这三个计算任务依旧被完整地保留了下来，并共同组成了全新的安培SM模

块。

面向图形的安培SM模块的基本配置和之前的图灵架构在宏观结构上是基本相同的。整个

SM中都包含了4个计算单元，128KB的L1缓存和共享内存以及4个纹理单元、RT核心等。

其主要变化发生在计算单元内部。

在之前的图灵SM模块的单个计算单元配置上（4个SM计算单元组成一个SM模块），

每个SM模块中的计算单元拥有1个warp调度单元和1个派遣单元，16384×32bit寄存器、16

个FP32内核和16个INT32内核，2个张量核心以及后端的LD/ST单元、特殊功能单元

（Special Function Unit，简称SFU）等。

在新的GA10X安培SM的计算单元内部，依旧配置了1个warp调度单元和1个派遣单

元、16384×32bit寄存器和后端LD/ST、SFU单元，但是在计算的部分却包含了1组16个可自

由执行FP32和INT32计算的双功能计算单元（ALU）—它们既可以完成FP32计算，又可以

完成INT32计算，另外还包含了1组16个FP32计算单元和1个新的第三代张量核心。

由于SM设计的变化，因此安培架构相比图灵架构显示出巨大的功能性和性能导向差异。

最典型的就是CUDA核心的数量方面，NVIDIA一直以来都将1个FP32单元作为1个CUDA

核心来计数和宣传，但是在本次使用了INT32和FP32双功能设计、并额外增加了FP32单元

后，可宣传的CUDA核心数量就大大增加了。比如同为4个SM计算单元组成的SM模块，

GA10X安培架构拥有等效128个CUDA核心、面向计算的A1xx安培架构拥有64个CUDA核

心，图灵架构也拥有64个CUDA核心，这也是NVIDIA宣传GA10X安培架构SM模块2倍

于图灵架构的数字计量来源。

但是，这并不意味着安培架构在FP32计算性能上随时都能保证达到图灵架构的2倍，毕

竟安培架构的每个SM模块中只有64个“纯粹”的FP32单元，其余64个是双功能单元。这意

味着当计算任务的数据格式以混合INT和FP格式占据这些单元时，安培架构的SM模块每周

期所呈现的FP计算能力就会根据计算任务而变化，最极端情况下会降低至和图灵架构相同

（假设INT32占据了所有64个双功能单元），或者呈现图灵架构的2倍（全部都是FP32计

算）。

考虑到目前复杂的图形计算任务，采用FP32+INT32混组核心的设计的优势是能够带来每

晶体管性能的显著提升。毕竟计算任务并不会老老实实地按照设计规范出现。举例来说，一个

计算任务中包含了20个INT计算和80个FP计算时，在图灵架构下，20个INT计算任务在1

个时钟周期内就可以完成，但是80个FP计算就需要2个时钟周期才能完成。其中部分INT32

核心在此时就会被闲置，每晶体管性能就会降低。换到安培架构，20个INT计算任务会分配

20个双功能核心的INT32功能完成（剩余48个双功能核心），其余80个计算任务中的64个

可以交给固定FP32核心，另外16个可以交给双功能核心的FP32功能完成。那么，1个时钟

周期就可以完成所有的计算任务，效率自然能得到大幅度提升。

总的来看，在计算任务全部都是FP32的情况下，新的安培架构的1个SM可以视同拥有

128个FP32计算单元、4个第三代张量核心和1个RT核心。因此，NVIDIA特别提到，现代

游戏工作负载具有广泛的处理需求，许多工作负载混合使用FP32算术指令（例如FFMA、浮

点加法FADD、浮点乘法FMUL等），以及许多更简单的整数指令，例如用于寻址和获取数

据算法，或者用于处理结果等。因此，在图灵架构上，NVIDIA增加了新的计算路径后，大幅

度提升了这类算法的自由度和工作效能，从而带来了不错的性能优势。在安培架构上，这样的

设计被强化了，浮点计算可以根据需求选择任何一组计算单元（计算路径），根据Shader指

令和應用程序设计的不同，性能将有所变化，具体取决于指令的应用方式。比如光线追踪降噪

计算全部都是FP指令，能够充分利用新的双功能计算单元和传统的FP32单元，显著提升性

能。

此外，在L1缓存部分，安培架构的SM L1共享缓存应用下的带宽相比图灵架构翻倍，安

培架构的SM共享缓存带宽为每时钟周期128bytes，而图灵架构为每时钟周期64bytes。这样一

来，RTX 3080的总L1带宽为219GB/s，RTX 2080 SUPER仅有116GB/s。

在缓存方面，安培架构的SM缓存容量从之前的96KB提升到了128KB，容量增大了

33%，这有助于存放更多的数据在L1缓存中，减少数据不断地从外部存储调用的频率，能提

高性能并降低功耗。完整的GA102包含10752KB的L1缓存，对比TU102为6912KB。此

外，NVIDIA还给出了L1和共享缓存的容量配置表，L1和共享缓存的可配置方案如下：

128KB L1 + 0 KB共享内存

120KB L1 + 8 KB共享内存

112KB L1 + 16 KB共享内存

96KB L1 + 32 KB共享内存

64KB L1 + 64 KB共享内存

28KB L1 + 100 KB共享内存

NVIDIA特别提到，对于图形工作负载和异步计算，GA102将分配6 4KB L1数据纹理缓

存（相比之下图灵架构仅能分配32KB）、48KB共享内存和16 KB保留用于各种图形管线操

作。

光线追踪模块

本文标签：计算架构单元核心图灵

版权声明：本文标题：NVIDIA GeForce RTX 3080全球首发评测内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://m.elefans.com/dongtai/1715342244a447328.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

电子爱好者 - 最新技术资讯及电子产品介绍！

NVIDIA GeForce RTX 3080全球首发评测

更多相关文章

mac下使用lipo命令查看支持哪种架构

Android核心基础(手机卫士的一个知识点总结)

Windows7的图形架构与DX的那点事

windows安装arm架构虚拟机(国产麒麟系统)

旧版微信内置浏览器x5核心无法打开，安装内核提示“内核下载失败115→115”，有相同情况吗

可扩展架构案例学习总结

2022年下半年系统架构设计师下午真题及答案解析

搜索引擎的系统架构

MySQL从入门到删库(2) 了解数据库基本单元、SQL语句的分类、以及关系型数据库(RDBMS)和非关系型数据库(非RDBMS)的区别

电商搜索引擎的架构设计和性能优化

四级英语核心词汇

开放银行渠道应用架构设计

移动端视频剪辑架构设计一

英语四六级高频核心词（故事版）

【最佳实践】当前疫情下火爆的直播应用，你了解背后的技术架构吗？

核心词根与重点单词

Starknet架构之Starknet state、State commitment

电商商业平台技术架构系列教程之：电商平台安全与隐私保护

永久有效-Stata17.0-MP 64核心顶配版（含Win&amp;amp；Mac两种版本）

架构系统游戏系统开发笔记（五）——服务端系统分层

发表评论

推荐文章

win11 黑屏无鼠标（亮屏无鼠标，无法通过快捷键打开任务管理器），键盘灯正常

【AMD显卡在WIndow1011部署带GPU支持的深度学习环境(Pytorch-DirectML篇)】

mac更新完后读取不出移动硬盘的问题解决

插上硬盘计算机无法启动,插入USB磁盘后如果无法打开计算机，如何修复

网站三端登陆

热门文章

【Unity 实用工具】 Unity 十款 浏览器相关插件 整理（web view browser）

怎么登陆计算机管理,192.168.0.1怎么登陆到管理页面

电脑进入锁屏后直接黑屏，只有鼠标

商品详情页动态渲染系统：大型网站的多机房4级缓存架构设计

VirtualBox的Linux虚拟机文本模式和图形模式的切换

四款支持 H.265 格式视频的免费播放器推荐

Windows 10搭建FTP服务器实现局域网文件共享

记一次重装系统

计算机硬盘如何制作成移动硬盘,电脑拆出来的闲置硬盘别扔 这么做帮你把它变成移动硬盘...

本来共享的计算机突然无法访问,win7无法启用共享访问怎么办_win7无法启用共享访问如何处理-win7之家...

最新文章

GPT 4o访问入口及使用指南

我来泼盆冷水：正面迎击AI的时代千万别被ChatGPT割了韭菜

AI视频下载：ChatGPT数据科学与机器学习课程

Chatgpt用C++编写简易线程池

OpenAI ChatGPT API + FaskAPI SSE Stream 流式周转技术 以及前端Fetch 流式请求获取案例

Chatgpt AI这么恐怖？未就业就要失业了？

一位公司老板，上午尝试了 ChatGPT，下午裁员40%_当创业者开始用chatgpt裁员(1)

ChatGPT，乌合之众的疯狂

Docker的使用教程、学习笔记，附实战：部署chatgpt网页版ui，部署mysql8数据库

AI编程案例003 ChatGPT写爬虫程序-通过搜狗搜索抓取微信公众号文章

最新chatGPT镜像网站入口

【新知】chatGPT 使用笔记（一）——文本代码显示不全的问题解决

打造中国版ChatGPT，国内有哪些学术力量能抢滩？

chatgpt应用链接

零基础解读ChatGPT：对人类未来工作是威胁还是帮助？

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

【生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD】生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD 官方免费下载

【模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311】模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311 官方免费下载

【模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311】模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311 官方免费下载

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改 官方免费下载

如何实现高效的treenode搜索算法

treenode与链表有何本质区别

在哪些场景下应优先考虑使用treenode

treenode在树形结构中的角色是什么

如何通过treenode实现二叉树

永久有效-Stata17.0-MP 64核心顶配版（含Win&amp；Mac两种版本）

【Unity 实用工具】 Unity 十款浏览器相关插件整理（web view browser）

计算机硬盘如何制作成移动硬盘,电脑拆出来的闲置硬盘别扔这么做帮你把它变成移动硬盘...

OpenAI ChatGPT API + FaskAPI SSE Stream 流式周转技术以及前端Fetch 流式请求获取案例

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载