HPC高性能计算知识-GPU的工作原理(含视频)|电子爱好者

admin管理员组
文章数量:1530917

2024年7月15日发(作者：)

HPC高性能计算知识: GPU的工作原理(含视

频)

在GPU出现以前，显卡和CPU的关系有点像“主仆”，简单地说这时的显卡就是画

笔，根据各种有CPU发出的指令和数据进行着色、材质的填充、渲染、输出等。

较早的娱乐用的3D显卡又称“3D加速卡”，由于大部分坐标处理的工作及光影特效

需要由CPU亲自处理，占用了CPU太多的运算时间，从而造成整体画面不能非常流畅地

表现出来。

例如，渲染一个复杂的三维场景，需要在一秒内处理几千万个三角形顶点和光栅化几十

亿的像素。早期的3D游戏，显卡只是为屏幕上显示像素提供一个缓存，所有的图形处理都

是由CPU单独完成。图形渲染适合并行处理，擅长于执行串行工作的CPU实际上难以胜

任这项任务。所以，那时在PC上实时生成的三维图像都很粗糙。不过在某种意义上，当时

的图形绘制倒是完全可编程的，只是由CPU来担纲此项重任，速度上实在是达不到要求。

随着时间的推移，CPU进行各种光影运算的速度变得越来越无法满足游戏开发商的要

求，更多多边形以及特效的应用榨干了几乎所有的CPU性能，矛盾产生了。

GPU的诞生

NVIDIA公司在1999年8月31日发布GeForce 256图形处理芯片时首先提出GPU

的概念。

GPU之所以被称为图形处理器，最主要的原因是因为它可以进行几乎全部与计算机图

形有关的数据运算，而这些在过去是CPU的专利。

目前，计算机图形学正处于前所未有的发展时期。近年来，GPU技术以令人惊异的速

度在发展。渲染速率每6个月就翻一番。性能多年来翻番了十倍百倍，也就是(2的10次方

比2)提高了上千倍！与此同时，不仅性能得到了提高，计算质量和图形编程的灵活性也逐

渐得以改善。

以前，PC和计算机工作站只有图形加速器，没有图形处理器(GPU)，而图形加速器只

能简单的加速图形渲染。而GPU取代了图形加速器之后，我们就应该摒弃图形加速器的旧

观念。

GPU的结构

GPU全称是Graphic Processing Unit(图形处理器)，其最大的作用就是进行各种绘

制计算机图形所需的运算，包括顶点设置、光影、像素操作等。GPU实际上是一组图形函

数的集合，而这些函数由硬件实现。以前，这些工作都是有CPU配合特定软件进行的，

GPU从某种意义上讲就是为了在图形处理过程中充当主角而出现的。

一个简单的GPU结构示意图包含一块标准的GPU。主要包括2D Engine、3D

Engine、VideoProcessing Engine、FSAA Engine、显存管理单元等。其中，3D运算

中起决定作用的是3DEngine，这是现代3D显卡的灵魂，也是区别GPU等级的重要标

志。

3DEngine在各公司的产品中都是宣传攻势的重点照顾对象，名字一个比一个响，像

NVIDIA的nFjnjtFX系列、CineFX系列，AMD的SmoothVision系列。一个

3DEngine通常包含着T&L单元、Vertex Proeessing Engine、SetupEngine、

PiexlShader等部分。

GPU的工作原理

现在让我们来看看第二代GPU是如何完整处理一个画面的吧！首先，来自CPU的各种

物理参数进入GPU，Vertex shader将对顶点数据进行基本的判断。如果没有需要处理的

Vertex 效果，则顶点数据直接进入T&L Unit 进行传统的T&L操作以节约时间提高效率。

GPU中数据的处理流程

如果需要处理各种Vertex 效果，则Vertex shader将先对各种Vertex Programs的指

令进行运算，一般的Vertex Programs中往往包含了过去转换、剪切、光照运算等所需要

实现的效果，故经由Vertex shader处理的效果一般不需要再进行T&L操作。另外，当遇

到涉及到曲面镶嵌(把曲面，比如弓形转换成为多边形或三角形)的场合时。CPU可以直接将

数据交给Vertex shader进行处理。

另外，在DireetX的Transform过程中，Vertex shader可以完成Z值的剔除，也就

是Back Face Culling――阴面隐去。这就意味粉除了视野以外的顶点，视野内坡前面项点遮

住的顶点也会被一并剪除，这大大减轻了需要进行操作的顶点数目。

接下来，经由VertexShader处理完成的各种数据将流入Setup Engine，在这里，运

算单元将进行三角形的设置工作，这是整个绘图过程中最重要的一个步骤，Setup Engine

甚至直接影响着一块GPU的执行效能。三角形的设置过程是由一个个多边形组成的，或者

是用更好的三角形代替原来的三角形。在三维图象中可能会有些三角形被它前面的三角形挡

住，但是在这个阶段3D芯片还不知道哪些三角形会被挡住，所以三角形建立单元接收到是

一个个由3个顶点组成的完整三角形。三角形的每个角(或顶点)都有对应的X轴、Y轴、Z

轴坐标值，这些坐标值确定了它们在3D景物中的位置。同时，三角形的设置也确定了像素

填充的范围。至此，VertexShader的工作就完成了。

过去或第一代，设置好的三角形本来应该带着各自所有的参数进入像素流水线内进行纹

理填充和演染，但现在则不同，在填充之前我们还播要进行Piexl Shader的操作。

其实，PiexIShader并非独立存在的，它位于纹理填充单元之后，数据流入像紊流水线

后先进入纹理填充单元进行纹理填充，然后便是PiexlShader单元，经由PiexlShader单

元进行各种处理运算之后再进入像素填充单元进行具体的粉色，再经由雾化等操作后，一个

完整的画面就算完成了。

值得注意的是，第二代GPU中普遮引入了独立的显示数据管理机制，它们位于

VertexShader、SetuPEngine以及像素流水线之间，负资数据更有效率地传输和组合、各

种无效值的剔除、数据的压缩以及寄存器的管理等工作，这个单元的出现对整个GPU工作

效率的保证起到了至关重要的作用。

简而言之，GPU的图形(处理)流水线完成如下的工作(并不一定是按照如下顺序):

• 顶点处理: 这阶段GPU读取描述3D图形外观的顶点数据并根据顶点数据确定3D图

形的形状及位置关系，建立起3D图形的骨架。在支持DX系列规格的GPU中，这些

工作由硬件实现的Vertex Shader(定点着色器)完成。

• 光栅化计算: 显示器实际显示的图像是由像素组成的，我们需要将上面生成的图形上

的点和线通过一定的算法转换到相应的像素点。把一个矢量图形转换为一系列像素点

的过程就称为光栅化。例如，一条数学表示的斜线段，最终被转化成阶梯状的连续像

素点。

• 纹理帖图: 顶点单元生成的多边形只构成了3D物体的轮廓，而纹理映射(texture

mapping)工作完成对多变形表面的帖图，通俗的说，就是将多边形的表面贴上相应

的图片，从而生成“真实”的图形。

• 像素处理: 这阶段(在对每个像素进行光栅化处理期间)GPU完成对像素的计算和处

理，从而确定每个像素的最终属性。在支持DX8和DX9规格的GPU中，这些工作

由硬件实现的Pixel Shader(像素着色器)完成。

• 最终输出: 由ROP(光栅化引擎)最终完成像素的输出，1帧渲染完毕后，被送到显存帧

缓冲区。

总结:GPU的工作通俗的来说就是完成3D图形的生成，将图形映射到相应的像素点

上，对每个像素进行计算确定最终颜色并完成输出。

GPU流程示意图

如今的显卡图形，单从图象的生成来说大概需要Homogeneous coordinates(齐次坐

标)、Shading models(阴影建模)、Z Buffering(Z缓冲)、Texture Mapping(材质贴图)四

个步骤。

在这些步骤中，显示部分(GPU)只负责完成第三、四步，而前两个步骤主要是依靠 CPU

来完成。而且，这还仅仅只是3D图象的生成，还没有包括图形中复杂的AI运算。场景切

换运算等等。无疑，这些元素还需要CPU去完成。

CPU与GPU的数据处理关系

接下来，让我们简单的看一下CPU和GPU之间的数据是如何交互的。首先从硬盘中

读取模型， CPU分类后将多边形信息交给GPU，GPU再时时处理成屏幕上可见的多边

形，但是没有纹理只有线框。

模型出来后，GPU将模型数据放进显存，显卡同时也为模型贴材质给模型上颜色。

CPU相应从显存中获取多边形的信息。然后CPU计算光照后产生的影子的轮廓。等CPU

计算出后，显卡的工作又有了，那就是为影子中填充深的颜色。

传统GPU指令的执行

传统的GPU基于SIMD的架构，SIMD即Single Instruction Multiple Data，单指令

多数据。其实这很好理解，传统的VS和PS中的ALU(算术逻辑单元，通常每个VS或PS

中都会有一个ALU，但这不是一定的)都能够在一个周期内(即同时)完成对矢量4个通道的

运算。比如执行一条4D指令，PS或VS中的ALU对指令对应定点和像素的4个属性数据

都进行了相应的计算。这便是SIMD的由来。这种ALU我们暂且称它为4DALU。

需要注意的是，4D SIMD架构虽然很适合处理4D指令，但遇到1D指令的时候效率便

会降为原来的1/4。此时ALU 3/4的资源都被闲置。为了提高PS VS执行1D 2D 3D指令

时的资源利用率，DirectX9时代的GPU通常采用1D+3D或2D+2DALU，这便是Co-

issue技术。这种ALU对4D指令的计算时仍然效能与传统的ALU相同，但当遇到1D 2D

3D指令时效率则会高不少，对于传统的4D ALU，显然需要两个周期才能完成，第一个周

期ALU利用率75% ，第二个周期利用率25%。而对于1D+3D的ALU，这两条指令可以

融合为一条4D指令，因而只需要一个周期便可以完成，ALU利用率100%。

当然，即使采用Co-issue，ALU利用率也不可能总达到100%，这涉及到指令并行的

相关性等问题，而且，更直观的，上述两条指令显然不能被2D+2DALU一周期完成，而

且同样，两条2D指令也不能被1D+3DALU一周期完成。传统GPU在对非4D指令的处

理显然不是很灵活。

另外，CPU中大部分晶体管主要用于构建控制电路(象分支预测等)和Cache，只有少部

分的晶体管来完成实际的运算工作。而GPU的控制相对简单，而且对Cache的需求小，所

以大部分晶体管可以组成各类专用电路、多条流水线，使得GPU的计算速度有了突破性的

飞跃，拥有了惊人的处理浮点运算的能力。现在CPU的技术进步正在慢于摩尔定律，而

GPU(视频卡上的图形处理器)的运行速度已超过摩尔定律，每6个月其性能加倍。

<知识扩展阅读>

• vCPU之后还需要vGPU吗？

• AMD Radeon Instinct GPU加速卡

• NVIDIA之Tesla、GeForce和Quadro GPU

本文标签：进行图形处理完成

版权声明：本文标题：HPC高性能计算知识-GPU的工作原理(含视频) 内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://m.elefans.com/xitong/1720993885a854637.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

电子爱好者 - 最新技术资讯及电子产品介绍！

HPC高性能计算知识-GPU的工作原理(含视频)

更多相关文章

2023年全球结核报告

python用.xls格式处理excel表格的操作步骤

桌面虚拟化解决方案(上)

Citrix虚拟桌面解决方案-XenDesktop-技术方案

烟气排烟系统的布置与调试方法

windows message

方案主题怎么写才好看一点

了解电脑的硬盘分区和格式化

PS中的ACR究竟是什么?

Python 编写的图形程序打包为安卓 APP、IOS

CorelDRAW Graphics Suite2024永久免激活版矢量图形设计软件下载！

mysql翻译插件_如何翻译 MySQL 图形工具

升级计算机的图形卡和驱动程序,Win10更新显卡驱动程序后无法开机怎么办?解决方案...

CAD制图初学入门：CAD图形导出功能介绍

Illustrator 2024中文--重塑矢量图形设计的未来

u盘安装linux没有进去图形界面,centos 安装时不出现图形安装界面的解决方法

linux切换root报错,Linux用户切换到root后运行图形程序报错（*GLib-GIO-CRITICAL **）

Windows7的图形架构与DX的那点事

因误删文件导致CentOS7开机卡死无法进入图形登录界面

安装显卡后计算机无法启动,计算机上安装的图形驱动程序无法启动

发表评论

推荐文章

容器部署的nextcloud配置onlyoffice时开启密钥

win10与Linux虚拟机进行文件共享

谷歌Chrome浏览器的翻译按钮不见了

修改host后chrome浏览器不能及时生效的解决办法

Costco启示录：如何锁定1亿美国中产的消费？【姜太公公】

热门文章

华为ar路由器wed登陆和配置方法及故障问题

对ChatGPT的一些看法

centos7中mail实测（qq邮箱）

使用chrome浏览器修改当前网页内容

家庭内部路由器接路由器的配置实践小记录

Windows桌面鼠标右键取消AMD选项

对比Nvidia，AMD, Intel 的GPU的计算单元

网络安全笔记

android wlan 自动断开,智能手机连接wifi时断时续或者自动断开

ensp启动设备蓝屏_电脑高手必备!读懂蓝屏代码很有必要

最新文章

电脑各种中英文信息对照及错误信息总汇 系统出错信息及解决方案

web基础入门

IDEA的安装、配置与使用详解

hyper-v虚拟机的基本使用

dell笔记本安装Ubuntu20.04双系统+cuckoo布谷鸟沙箱

20版idea下载与使用

Dell PowerEdge R720 装机实录

2021年职业院校技能大赛“网络安全”项目-- 江西省比赛任务书全解析

tcl网络电视android无法启动,tcl智能电视系统升级和刷机常见问题解答

实体机安装linux系统,实体机安装Ubuntu系统

无法启动计算机时该怎么办

win10一直卡在自动修复_Win10更新后提示“自动修复”无法进入系统问题操作指导...

ibm服务器修改ide,xp系统装机bios中sata改为ide方法

网络安全学习笔记

windows10系统还原

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

【生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD】生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD 官方免费下载

【模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311】模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311 官方免费下载

【模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311】模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311 官方免费下载

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改 官方免费下载

如何实现高效的treenode搜索算法

treenode与链表有何本质区别

在哪些场景下应优先考虑使用treenode

treenode在树形结构中的角色是什么

如何通过treenode实现二叉树

电脑各种中英文信息对照及错误信息总汇系统出错信息及解决方案

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载