admin管理员组

文章数量:1532656

2024年7月27日发(作者:)

intel_的CPU发展史(图文)

谈到处理器,就应该知道著名的摩尔定律(到目前为止,还是对的)。

摩尔定律:

1965年戈登·摩尔在《电子学》杂志(Electronics Magazine)第114页发表了影响

科技业至今的摩尔定律:

1、集成电路芯片上所集成的电路的数目,每隔18个月就翻一番。

2、微处理器的性能每隔18个月提高一倍,而价格下降二分之一。

3、用一个美元所能买到的电脑性能,每隔18个月翻两番。

附:

钟摆理论:

在奇数年,英特尔将会推出新的工艺;而在偶数年,英特尔则会推出新的架构。简单

的说,就是奇数工艺年和偶数架构年的概念。英特尔的钟摆策略,能够体现英特尔技术变

化方向。当有英特尔钟摆往左摆的时候,tick这个策略会更新工艺,往右摆的时候,tock

会更新处理器微架构。举个例子,05年说tick,英特尔更新从90纳米走向65纳米;06

年是tock,用英特尔推出酷睿架构,07年走向45纳米。值得注意的是,首先它不会在一

年内两个技术同时出现。每一年都可以在上个技术上再提升一个规模。

钟摆策略发展趋势一般是今年架构、明年工艺,是让大家循序渐进,而且实行钟摆策

略也是带着整个行业按着这个钟摆形成一种共同的结构往前走。

intel系列CPU及其架构:

本文将对intel系列CPU及其架构做简要介绍,CPU(Central processing Unit),又

称“微处理器(Microprocessor)”,是现代计算机的核心部件。对于PC而言,CPU的规

格与频率常常被用来作为衡量一台电脑性能强弱重要指标。

CPU的起源可以一直追溯到1971年。在那一年,当时还处在起步阶段的Intel公司

推出了世界上第一颗微处理器4004。这不但是第一个用于计算器的4位微处理器,也是

第一款个人有能力买得起的电脑处理器!

4004含有2300个晶体管,功能相当有限,而且速度还很慢,当时的蓝色巨人IBM

以及大部分商业用户对此不屑一顾。但它毕竟是划时代的产品,从此以后,INTEL便与微

处理器结下了不解之缘。可以这么说,CPU的历史发展历程一定意义上也就是Intel公司

x86系列CPU的发展历程。4004处理器核心架构图:

毛毛虫)。

(有点像

Intel C8008为世界上第一款八位元处理器。8008共推出两种速度,0.5 Mhz以及0.8

Mhz,虽然比4004的工作时脉慢,不过因为是八位元处理器(比起4004的四位元),整

体效能要比4004好上许多。8008可以支援到16KB的内存。C8008是比较珍贵的紫色陶

瓷镀金接脚版本,D8008则是后期出的量产版。

发布时间为1972年,8位运算+16位地址总线+16位数据总线,包含7个8位寄存

器(A,B,C,D,E,F,G,其中BC,DE,HL组合可组成16位数据寄存器),支持16位内存,同时它

也包含一些输入输出端口,这是一个相当成功的设计,还有效解决了外部设备在内存寻址

能力不足的问题。

之后,intel又推出8080。8080不仅扩充了可寻址的存储器容量和指令系统,而且指

令执行速度是8008的10倍。8008系统的加法需要20μs(每秒5万条指令),而8080

系统只需要2μs(每秒50万条指令)。另一方面8080可直接与TTL(晶体管晶体管逻

辑)兼容,而8008则不能。这样就使得接口设计更容易,而且价格更便宜。8080可寻址

的范围(64KB)是8008(16KB)的4倍,这些改进导致进入了8080时代,并且使微处

理器继续繁荣昌盛。随后,1974年第一台PC机MITS Altair 8800问世了(注意,选择

8800这个名字,可能是为了避免侵犯Intel的版权)。为Altair 8800计算机写的BASIC

语言解释程序是由Bill Gates(比尔·盖茨)和Paul Allen于1975年开发的,他们是

Microsoft公司的创始人。Altair 8800的汇编程序是由Digital Research公司编写的,它

曾为PC机开发了DRDOS。

8085:

8085的主频,我们现在看来非常的可怜,甚至还不如一个MP3的DSP。它最低主频

3 MHz,最高主频也不过6MHz。当年使用此CPU的厂商非常多,包括了AMD,TOSHIBA,

FUJI,SIEMENS等等。我的这位朋友收了一大批的8085,当然不少是连号的,INTEL这

批CPU

这是8085的一个分枝,区别在于其主频的工作频率,如同现在的赛扬D 325,330

一样。此CPU是8085系列中拥有最高主频的一颗。

8086:

1978年,Intel公司再次领导潮流,首次生产出16位的微处理器,并命名为i8086,

毫无疑问,8086是在我们曾经的计算机课本中出现频率最高的一个型号。它的产品线也分

了3个部分,分别是8086,8086-8,8086-10。后缀分别代表了CPU的主频。8086

是整个产品线中最低主频的一颗,仅仅是4.77MHz。它与上一代产品最大的区别就在于它

是一颗16bit的处理器。同时还生产出与之相配合的数学协处理器i8087,这两种芯片使

用相互兼容的指令集,但在i8087指令集中增加了一些专门用于对数、指数和三角函数等

的数学计算指令这两种芯片使用相同的指令集,可以互相配合提升科学运算的效率。

之后,在8086的基础上,公司发展了8088,以技术的观点来

看,8088其实是8086的一个简版,其内部指令是16位的,但是外部是8位数据总线;

相对于8086内部数据总线(CPU内部传输数据的总线)、外部数据总线(CPU外部传输

数据的总线)均为16位,地址总线为20位,可寻址1MB内存的规格来说,是稍差了一

点,但是已经足以胜任DOS系统和当时的应用程序了。

80286,intel最后一块16位cpu,

1982年。这一年,Intel推出了划时代的最新产品80286芯片,该芯片比8086和8088

都有了飞跃的发展,虽然它仍旧是16位结构,但是在CPU的内部含有13.4万个晶体管,

时钟频率由最初的6MHz逐步提高到20MHz。其内部和外部数据总线皆为16位,地址总

线24位,。与8086相比,80286寻址能力达到了 16MB,可以使用外存储设备模拟大量

存储空间,从而大大扩展了80286的工作范围,还能通过多任务硬件机构使处理器在各种

任务间来回快速切换,以同时运行多个任务,其速度比 8086提高了5倍甚至更多。。从

80286开始,CPU的工作方式也演变出两种来:实模式和保护模式。

80386,intel第一代32位cpu

1985年Intel推出了80386芯片,它是80x86系列中的第一种32位微处理器,而且

制造工艺也有了很大的进步。与80286相比,80386内部内含27.5万个晶体管,时钟频

率为12.5MHz,后逐步提高到20MHz、25MHz、33MHz。80386的内部和外部数据总

线都是32位,地址总线也是32位,可寻址高达4GB内存。同时也是第一种具有“多任

务 ”功能的处理器——这对微软的操作系统发展有着重要的影响,所谓“多任务”就是说

处理器可以在同时处理几个程序的指令。

80486,这是intel最后一代以数字编号的cpu

1989年,我们大家耳熟能详的80486芯片由Intel推出,这种芯片的伟大之处就在于

它实破了100万个晶体管的界限,集成了120万个晶体管。80486的时钟频率从25MHz

逐步提高到33MHz、50MHz。80486是将80386和数学协处理器80387以及一个8KB

的高速缓存集成在一个芯片内,并且在80x86系列中首次采用了RISC(精简指令集)技

术,可以在一个时钟周期内执行一条指令。它还采用了突发总线方式,大大提高了与内存

的数据交换速度。

·P5架构带来了第一款与数字无关的处理器 :

pentium pro

稍后Intel推出了Pentimu Pro(中文名称“高能奔腾”),尽管性能不错,但远没有

达到抛离对手的程度。加上价格十分昂贵,因此Pentimu Pro实际上出售的数目非常至少,

市场生命也非常的短。Pentimu Pro可以说是Intel第一个失败的产品,但Pentium Pro

的设计思想和总体架构却对Intel此后的处理器设计造成了深远的影响。

Pentium Pro处理器采用了一种新的总线接口Socket 8。新的处理器对多媒体功能提

供了很好的支持。Pentium Pro的工作频率有150/166/180和200MHz四种,都具有16KB

的一级缓存和256KB的二级缓存。它是基于Pentium 完全相同的指令集和兼容性,达到

了440 MIPs 的处理能力和5.5 M个晶体管。这几乎相当于比4004处理器的晶体管提升

了2400倍。值得一提的是Pentium Pro采用了“PPGA” 封装技术。即一个256KB的

二级缓存芯片与Pentium Pro芯片封装在一起 ,两个芯片之间用高频宽的内部总线互连,

处理器与高速缓存的连接线路也被安置在该封装中,这样就使高速缓存能更容易地运行在

更高的频率上。

例如Pentium Pro 200MHz CPU的L2 Cache就是运行在200MHz,也就是工作在

与处理器相同的频率上,这在当时可以算得上是CPU技术的一个创新。Pentium Pro的推

出,为以后Intel推出PⅡ奠定了基础。

P6架构与支持多媒体技术的Pentium MMX :

英特奔腾MMX的推出,是Intel的辉煌时代的到来,所以对奔腾系列将做比较详细

的介绍:

吸取了奔腾Pro的教训,Intel在1996年底推出了奔腾系列的改进版本,厂家代号

P55C,也就是我们平常所说的奔腾MMX(中文名称“多能奔腾”)。这款处理器并没有

集成当时卖力不讨好的二级缓存,而是独辟蹊径,采用MMX指令集来增强性能。MMX

技术是INTEL最新发明的一项多媒体增强指令集技术,它的英文全称可以翻译“多媒体扩

展指令集”。MMX是Intel公司在1996年为 增强奔腾 CPU在音像、图形和通信应用方

面而采取的新技术,为CPU增加了57条MMX指令,除了指令集中增加MMX指令外,

还将CPU芯片内的L1缓存由原来的 16KB增加到32KB(16K指命+16K数据),因此

MMX CPU比普通CPU在运行含有MMX指令的程序时,处理多媒体的能力上提高了60%

左右。MMX技术不但是一个创新,而且还开创了CPU开发的新纪元,后 来的SSE,3D

NOW!等指令集也是从MMX发展演变过来的。

奔腾Ⅱ处理器融合了Intel MMX技术——Intel近10年来,在架构方面最显著的提高。

MMX技术提升了视频的加压和解压、图像处理、编码及I/O处理,所有的这一切在今天的

办公套件、商用多媒体、通信和Internet中被广泛地应用。

(1) 单指令、多数据(SIMD)技术

今天的媒体和通信应用程序中经常使用重复循环,这些仅占总程序10%甚至更少的代

码,却要占用90%的运行时间。一个被称作单指令、多数据(SIMD)的流程使得一条指令能

完成多重数据的的工作。这就好比一个长官对整个排发出"立正!"的命令,而不是对每个士兵

都说一遍。SIMD允许芯片减少在视频、声音、图像和动画中计算密集的循环。

(2) 新的指令集

Intel的工程师们特别设计了57条功能强大的指令,以更有效地操作、处理视频、声音

和图像数据。这些指令主要针对多媒体操作中经常出现的高并行、重复运算。奔腾Ⅱ处理

器的MMX技术和奔腾处理器中的MMX技术是兼容的,它和奔腾Ⅱ处理器的核心架构也有

非常好的结合。强大的MMX技术指令集充分利用了动态执行的技术,在多媒体和通信中性

能表现卓著。

4. 紧密相连的512K二级高速缓存器

5. 266MHz处理器主频,支持嵌入式应用

6. 66MHz系统总线频率

7. 优化的包装体积

为合理利用宝贵的空间,Intel设计了Intel便携式模型(IMM)和最新的迷你包装,以保证

芯片的安装。包装体积为4英寸×2.5英寸×0.39英寸。

8. 能耗低

主频为266MHz时,能耗为1.7V内核电压,内核处理器能耗为7.8W,整个模块最大能耗

为12.4W。

全面的解决方案:

除了现有的支持嵌入设计的高端处理器模块和芯片组以外,Intel公司还将继续支持嵌

入式Intel架构产品线,包括Intel嵌入式处理器模块、Intel奔腾处理器(含有MMX技术)

及PCI芯片组,Intel 486处理器、Intel 386处理器和Intel 186处理器。为满足嵌入式应

用市场的需求,Intel还将提供应用软件开发支持、参考设计、第三方开发工具和服务零售商

的联络信息、BIOS以及操作系统

在Intel奔2之后,Intel为了占领更多的市场,推出了celeron系列,引发超频热潮。

(超频会适当提高机子性能,但不会超频的同志千万不要尝试!会烧坏机子。)

当初推出的 Celeron 处理器,架构上维持和 Pentium II 相同 (Deschutes),采用

Slot-1,核心架构也和 Pentium II 一样,具有 MMX 多媒体指令集,但是 Pentium II 上

的两颗 L2没了,Intel 拿掉 L2 快取,除了可以降低成本之外,最主要是为了和当时的主

流 Pentium II 在效能上有所分别,除了 L2 快取,处理器的外部工作频率 (Front Side

BUS),也是 Intel 用来区分主流与低价处理器的分水岭;当时 Intel Pentium II 处理器的

外频为 100 MHz (最早是 Pentium II 350),而属于低价的 Celeron 则是维持传统的 66

MHz。

Celeron 的核心架构,和 Pentium II 完全相同,只是少了 L2 快取,这对整体效能

上的影响很大,在效能上一直为大家所唾弃。

不过 Celeron 的核心架构和 Pentium II 是完全相同的,所以在浮点运算能力上,是

完全相同的,执行一些 3D 游戏时,效能还不差。

由于不具 L2 快取记忆体的 Celeron 效能以及价位上,并不能够取代 K6-2,所以,

Intel 再度推出新版本的 Celeron(核心代号 : Mendocino),不但加上了 L2 快取记忆

体之外,由于 Intel 在制程上的进步,以及成本方面的考量,所以改良后的 Celeron,具

有 128 KB 的 L2 全速 On-Die 快取,效能上和同时脉的 Pentium II 相当接近。

On-Die 128K L2 快取的 Celeron 推出之后,在电脑业界还是没有受到大家的厚爱,

尤其是 D.I.Y. 的玩家,更是完全看不上眼,不过在 Intel 推出 PPGA 封装的 Celeron 之

后,情况开始有 180º 的大转变。

Intel 为了因应市场的各项需求,开始深深体验到,只是推出‘阉割’版的 Celeron,

是不能够满足大家需求的,新的 Celeron 除了有全速 128 K 快取之外,为了进一步降低

成本,Intel 连 Slot-1 都不要了,旧的 SEPP (Single Edge Processor Package) 封装方

式,需要较高的成本,所以 Celeron 新的 PPGA (Plastics Pin Gird Array) 封装方式,

不但降低了处理器生产成本,连带的,主机板的设计,也更具有价格空间,Intel 为了成功

打入低价电脑市场,也推出 ZX 以及 EX 晶片组,让主机板场可以提供系统厂更低价的选

择。

终于,Celeron 处理器,在 Intel 强力促销下,成功的成为低价处理器的主流,其中

更是以 Celeron 300A 扮演着相当重要的角色,由于可超频性优,马上成为许多超频玩家

的最爱。(不会超频的同志千万不要尝试!会烧坏机子。)

·P6架构一直沿用到Pentium III :

1999年英特尔发布了Pentium III处理器。从Pentium III开始,英特尔又引入了70

条新指令(SIMD,SSE),主要用于因特网流媒体扩展(提升网络演示多媒体流、图像的

性能)、3D、流式音频、视频和语音识别功能的提升。Pentium III可以使用户有机会在网

络上享受到高质量的影片,并以3D的形式参观在线博物馆、商店等,Pentium III处理器

集成了950万个晶体管,并且是首个使用0.26微米技术的微处理器。Pentium III处理器

也发生过错误的事故,可能使用户储存的数据出错,但是英特尔处理这类问题的措施已经

炉火纯青,所以只是帮助部分受影响的客户更换主板或者更新微码就解决了该问题。但是

另外一个更严重的事情是:英特尔在Pentium III开始引入了硬件序列号功能,每一片

Pentium III处理器都有独特的硬件序列号,这样就有可能区分出具体的某台电脑特征。不

过很遗憾的是,世界上大多数人都对这个新特性非常不满;尤其是隐私保护团体不断游说,

要求取消这个功能。这样,英特尔公司也作出了妥协,允许在硬件设置中关闭该功能,最

终在处理器内部取消了这个功能收场。同样,Pentium III也有对应型号的Celeron处理器,

来应对低端市场。。

从Pentium III开始的Socket 370和0.18微米制造工艺

起初的Intel P3处理器仍然采用SLOT 1接口,它采用0.25微米制造工艺,拥有32K

一级缓存和512K二级缓存(运行在芯片核心速度的一半下),包含MMX指令和INTEL

自己的“ 3D”指令SSE,最初发行的PIII有450和500MHz两种规格,其系统总线频率

为100MHz。(奔III的特别 之处就是增加了SSE指令,事实上在运行没有为SSE指令优

化过的应用软件时,PIII与PII的速度差不多。

Socket 370接口的P3处理器

随后英特尔开发出来代替SLOT架构的Socket 370架构,外观上与Socket 7非常像,

也采用零插拔力插槽,对应的CPU是370针脚。英特尔公司著名的“铜矿”和”图拉丁”

系列CPU就是采用此接口,并且将制造工艺成功专制成0.18微米。

Pentium III的芯片内核

Intel的巅峰王朝应该是奔4时代。所以对王朝时代的处理器及其一些技术将做以详细

介绍:

2000年英特尔发布了Pentium 4处理器,自此Intel来到了一个一统江湖的时代。基

于Pentium 4处理器的个人电脑,可以让用户创建专业品质的影片,透过因特网传递电视

品质的影像,并进行实时语音、影像通讯,实时3D渲染,快速进行MP3编码解码运算,

在连接因特网时运行多个多媒体软件。

NetBurst架构的Pentium 4

NetBurst是Intel沿用时间最长的一代构架,以下是NetBurst结构带来的好处:

1.较快的系统总线(Faster System Bus);

2.高级传输缓存(Advanced Transfer Cache);

3.高级动态执行(Advanced Dynamic Execution) (包含执行追踪缓存Execution

Trace Cache、高级分支预测Enhanced Branch Prediction)

4.超长管道处理技术(Hyper Pipelined Technology);

5.快速执行引擎(Rapid Execution Engine);

6.高级浮点以及多媒体指令集(SSE2)等等。

Pentium 4的功能模块图

当程序指令与数据一开始进入处理时,就会进入系统总线队列。Pentium 3处理器外

频FSB设定在133Mhz,每时钟周期传输64位数据,提供8字节*133Mhz=1066MB/s

的数据带宽;而Pentium 4处理器的系统总线虽然仅为100Mhz,同样是64位数据带宽,

但由于其利用了与AGP4X相同的原理“四倍速”(即FSB400)技术,因此可传输高达

3200MB/秒的数据传输速度。因此,Pentium 4处理器传输数据到系统的其他部分比目前

所有的x86处理器都快,也打破了Pentium 3处理器受系统总线瓶颈的限制。其后英特尔

又不断改进系统总线技术,推出了FSB533、FSB800的新规格,将数据传输速度进一步提

升。

Pentium 4还提供的SSE2指令集,这套指令集增加144个全新的指令,在128bit

压缩的数据,在SSE时,仅能以4个单精度浮点值的形式来处理,而在SSE2指令集,该

资料能采用多种数据结构来处理:

4个单精度浮点数(SSE)。 2个双精度浮点数(SSE2)。 16字节数(SSE2)

8个字数(word)数(SSE2)。 4个双字数(SSE2)。 2个四字数(SSE2)

1个128位长的整数(SSE2) 。

Pentium 4的芯片内核

尽管如今的Pentium4已经是众人皆知的产品,但是在其发展初期可并不是一帆风顺,

第一代Willamette核心就饱受批评。对于全新的NetBurst结构而言,发挥强大的性能需

要更高的主频以及强大的缓存结构,而这些都是Willamette核心所不具备的。起初P4处

理器集成了4200万个晶体管,并设计有256KB二级缓存,此时的整体性能受到很大影响。

然而最让Intel尴尬的是,Willamette核心的Pentium4 1.5G甚至不如Tualatin核心的

Pentium III。

423接口的Willamette

Socket 423与Willamette一同消亡

最初Pentium 4处理器的标准接口为Socket 423插槽,Socket 423的外形和前几种

Socket类的插槽类似,对应的CPU针脚数为423。Socket 423插槽多是基于Intel 850

芯片组主板,支持1.3GHz~1.8GHz的Pentium 4处理器。不过随着DDR内存的流行,

英特尔又开发了支持SDRAM及DDR内存的i845芯片组,CPU插槽也改成了Socket 478,

Socket 423接口也就销声匿迹了,850+Rambus成为当时最为失败的产品。

·Northwood与Socket478让Intel挽回面子

Pentium 4 2.2GHz

很快改进版的Pentium 4(Northwood)出现了,新款处理器集成了5500百万个晶

体管;采用0.18微米进行制造,初始速度就达到了1.5GHz(gigahertz),相当于从旧金山

到纽约只花了13秒的车程(当然,没人有这么快的汽车)。当然Pentium 4也有对应型号

的Celeron处理器,来应对低端市场。

Socket 478接口是目前Pentium 4系列处理器所采用的接口类型,针脚数为478针。

Socket 478的Pentium 4处理器面积很小,其针脚排列极为紧密。英特尔公司的Pentium

4系列和P4 赛扬系列都采用此接口。

Prescott核心处理器诞生,让IntelNetBurst结构再度升温

随着制造工艺的进步,Intel将取代Northwood核心的新Prescot (普雷斯科特)

核心处理器的制造工艺全面转移到了90纳米,Prescot 核心处理器已经将晶体管数量由

原来的5500万个提升到现在的1.25亿个晶体管,晶体管数量的增加能够使芯片存储量

增至原来的两倍。另外,由于英特尔公司采用了先进技术,芯片的体积将会更小,可大幅

提高芯片运行速度。

Prescot处理器外观 :

Prescott处理器内部核心

从上图可以看到,在核心的中间部分,上下分布的两块区域就是能够决定Prescott能

够支持64位运算的两组32位的算术逻辑单元(ALU)以及两组32位的寄存器。不得不承认

Intel 也确实在新的处理器使用缓存中下了一番功夫,不过与Northwood 相比,带来的

负面影响是访问延迟的时间也增加了;Intel 为了提升处理器的主频率,转移到Prescot 核

心,不过也付出了昂贵的代价,那就是使用了更长的管线,基于Prescott 核心的处理器使

用了31层管线,而Northwood 核心的处理器则为20层。

·LGA 775+PCI-E让平台换代成本变得昂贵

LGA775接口的P4 506 :

为了促进整个IT产业的发展,Intel又推出了新的组合,即LGA 775+PCI-E。起初Intel

从478到LGA 775接口的过渡并不顺利,起码远没有Intel计划中那么顺利。在LGA 775

接口标准及芯片组发布后一年,Intel LGA 775市场占有率依旧不容乐观,新接口加上老的

构架与制成并为让消费者尝到甜头,因此消费者也不愿意去花费更多钱去升级不同接口的

显卡和处理器买单。但随着时间的推移,平台的整体迁移已经成为大势所趋,但直到现在

478接口CPU销量远远胜过LGA 775。

2001年:英特尔安腾(Itanium)处理器

英特尔安腾处理器是英特尔推出的64位处理器家族中的首款产品。该处理器是在基

于英特尔简明并行指令计算(EPIC)设计技术的全新架构之基础上开发制造的,设计用于

高端、企业级服务器和工作站。该处理器能够为要求最苛刻的企业和高性能计算应用(包

括电子商务安全交易、大型数据库、计算机辅助的机械工程以及精密的科学和工程计算)

提供全球最出色的性能。

2002年:英特尔安腾2处理器(Itanium2) Intel Pentium 4 /Hyper Threading

处理器

英特尔安腾2处理器是安腾处理器家族的第二位成员,同样是一款企业用处理器。该

处理器家族为数据密集程度最高、业务最关键和技术要求最高的计算应用提供英特尔 架构

的出色性能及规模经济等优势。该处理器能为数据库、计算机辅助工程、网上交易安全等

提供领先的性能。

英特尔推出新款Intel Pentium 4处理器内含创新的Hyper-Threading(HT)超执行

绪技术。超执行绪技术打造出新等级的高效能桌上型计算机,能同时快速执行多项运算应

用, 或针对支持多重执行绪的软件带来更高的效能。超执行绪技术让计算机效能增加

25%。除了为桌上型计算机使用者提供超执行绪技术外,英特尔亦达成另一项计算 机里程

碑,就是推出运作时脉达3.06GHz的Pentium 4处理器,是首款每秒执行30亿个运算周

期的商业微处理器,如此优异的性能要归功于当时业界最先进的0.13微米制程技术,翌年,

内建超执行绪技术的 Intel Pentium4处理器时脉达到3.2GHz。

2003年:英特尔 奔腾 M(Pentium M) /赛扬 M (Celeron M)处理器

英特尔奔腾M处理器,英特尔855芯片组家族以及英特尔PRO/无线2100网卡是英

特尔迅驰™ 移动计算技术的三大组成部分。英特尔迅驰移动计算技术专门设计用于便携式

计算,具有内建的无线局域网能力和突破性的创新移动性能。该处理器支持更耐久的电池

使用时间,以及更轻更薄的笔记本电脑造形。

2005年:Intel Pentium D 处理器

首颗内含2个处理核心的Intel Pentium D处理器登场,正式揭开x86处理器多核心

时代。(绰号胶水双核,被别人这样叫是有原因的,PD由于高频低能噪音大,所以才有这个称

号)

2005年:Intel Core处理器

这是英特尔向酷睿架构迈进的第一步。但是,酷睿处理器并没有采用酷睿架构,而是

介于NetBurst和Core之间(第一个基于Core架构的处理器是酷睿2)。最初酷睿处理器

是面向移动平台的,它是英特尔迅驰3的一个模块,但是后来苹果转向英特尔平台后推出

的台式机就是采用的酷睿处理器。

酷睿使双核技术在移动平台上第一次得到实现。与后来的酷睿2类似,酷睿仍然有数

个版本:Duo双核版,Solo单核版。其中还有数个低电压版型号以满足对节电要求苛刻的

用户的要求。

2006年:Intel Core 2 (酷睿2,俗称“扣肉”)/ 赛扬 Duo 处理器

Core微架构桌面/移动处理器:桌面处理器核心代号Conroe。将命名为Core 2

Duo/Extreme家族,其E6700 2.6GHz型号比先前推出之最强的Intel Pentium D 960

(3.6GHz)处理器,在效能方面提升了40%,省电效率亦增加40%,Core 2 Duo处理

器内含2.91亿个晶体管。移动处理器核心代号Merom。是迅驰3.5和迅驰4的处理器模

块。当然这两种酷睿2有区别,最主要的就是将FSB由667MHz/533MHz提升到了

800MHz。

2007年:Intel 四核心服务器用处理器

英特尔已经推出了若干四核台式机芯片,作为其双核Quad和Extreme家族的组成部

分。在服务器领域,英特尔将在其低电压3500和7300系列中交付使用不少于具有9个

四核处理器的Xeons。

2007年:Intel QX9770四核至强45nm处理器

先进制程带来的节能冷静,HI-K的引进使CPU更加稳定。先进的SSE4.1指令集、快

速除法器,卓越的执行效率,INTEL在处理器方面不断领先

2008年:Intel Atom凌动处理器

低至0.6W的超低功耗处理器,带给大家的是难以想象的节能与冷静

未来:Intel Larrabee计划

Larrabee核心是由1990年的P54C演变而来的,即第二款Pentium处理器,当然生

产工艺已经进化到45nm,同时也加入了大量新技术,使其得以重新焕发青春。

Larrabee发布的时候将有32个IA核心(现在的样品是16/24个),支持64位技术,

并很可能会支持MMX指令集。事实上,Larrabee的指令集被称为AVX(高级矢量指令集),

整数512位,浮点1024位。Stiller估计Larrabee每Hz的理论单精度浮点性能为32Flops,

也就是在2GHz下能超过2TFlops。

Intel TerraFlops 80核处理器

这里的“80核”只是一种概念,并不是说处理器正好拥有80个物理核心,而是指处

理器拥有大量规模化并行处理能力的核心。TerraFlops处理器将拥有至少28个核心,不

同的核心有不同的处理领域,整个处理器运算速度将达到每秒万亿次,相当于现在对普通

用户还遥不可及的超级计算机的速度。目前,TerraFlops计划只接纳商业和政府用户,但

是根据英特尔的计划,个人用户也会在将来使用上万亿次计算能力的多核处理器。

英特尔处理器核的特点在于具有称之为“宽动态执行”的功能。更为重要的是,其工

作功耗比为奔腾4提供处理能力的Netburst架构要低。“我们期望到今年底自顶向下百

分之百地采用核微架构,”Otellini说,“今年全年,我们正以非常快的速度取代所有的

产品,甚至以核微架构的变种渗透到奔腾处理器和赛扬处理器的领域。这就赋予我们在每

一个领域的性能领先地位,并赋予我们高度的成本优势。”

3月26日,英特尔公司总裁兼首席执行官保罗·欧德宁在北京宣布:英特尔将投资25

亿美元在大连兴建一座先进的300毫米晶圆制造厂。

2008年11月17日:英特尔发布core i7处理器

基于全新Nehalem架构的下一代桌面处理器将沿用“Core”(酷睿)名称,命名为

“Intel Core i7”系列,至尊版的名称是“Intel Core i7 Extreme”系列。而同架构服务

器处理器将继续延用“Xeon”名称。至于为什么是“I7”,而不是大多数人认为的“Core

3”,Intel方面还没给出详细的解释,估计意思是Intel的第七代处理器,但2000年推出

NetBrust架构的Pentium 4处理器应该是属于第七代产品的,真正解释还是等Intel的回

答吧。

Intel Core i7是一款45nm原生四核处理器,处理器拥有8MB三级缓存,支持三通

道 DDR3内存。处理器采用LGA 1366针脚设计,支持第二代超线程技术,也就是处理器

能以八线程运行。根据网上流传的测试,同频Core i7比Core 2 Quad性能要高出很多。

综合之前的资料来看,英特尔首先会发布三款Intel Core i7处理器,频率分别为

3.2GHz、2.93GHz和2.66GHz,主频为3.2GHz的属于Intel Core i7 Extreme,当然这

款顶级处理器面向的是发烧级用户。全新一代Core i7处理器于2008第四季度推出。Intel

于2008年11月18日发布了三款Core i7处理器,分别为Core i7 920、Core i7 940和

Core i7 965。

而从英特尔技术峰会2008(IDF2008)上英特尔展示的情况来看,core i7的能力在

core2 extreme qx9770(3.2GHz)的三倍左右。IDF上,intel工作人员使用一颗core i7

3.2GHz处理器演示了CineBench R10多线程渲染,结果很惊人。渲染开始后,四颗核心

的八个线程同时开始工作,仅仅19秒钟后完整的画面就呈现在了屏幕上,得分超过45800。

相比之下,core2 extreme qx9770 3.2GHz只能得到12000分左右,超频到4.0GHz才

勉强超过15000分,不到core i7的3分之一。core i7的超强实力由此可见一斑。

设计:

1. 基于Nehalem微架构

2. 2-8颗核心。

3. 内置三通道DDR3内存控制器。

4. 每颗核心独享256KB二级缓存。

5. 8 MB共享三级缓存。

6. SSE 4.2指令集(七条新指令)。

7. 超线程技术。

8. Turbo mode(自动超频)。

9. 微架构优化(支持64-bit模式的宏融合,提高环形数据流监测器性能,六个数据

发射端口等等)

10. 提升预判单元性能,增加第二组分支照准缓存。

11. 第二组512路的TLB。

12. 对于非整的SSE指令提升性能。

13. 提升虚拟机性能(根据Intel官方数据显示,Nehalem相对65nm Core 2在双

程虚拟潜伏上有60%的提升,而相对45nm Core 2产品提升了20%)

14. 新的QPI总线。

15. 新的能源管理单元。

16. 45nm制程,32nm制程产品随后上线,代号Westmere。

17. 新的1366针脚接口。

Nehalem相当于65nm产品有着如下几个最重要的新增功能。

1. SSE4.1指令集(47个新SSE指令)。

2. 深层休眠技术(C6级休眠,只在移动芯片上使用)。

3. 加强型Intel动态加速技术(只在移动芯片上使用)。

4. 快速Radix-16分频器和Super Shuffle engine,加强FPU性能

5. 加强型虚拟技术,虚拟机之间交互性能提升25%-75%。

Cache设计:采用三级全内含式Cache设计,L1的设计与Core微架构一样;L2采

用超低延迟的设计,每个核心各拥有256KB的L2 Cache;L3则是采用共享式设计,被片

上所有核心共享使用。

集成了内存控制器(IMC):内存控制器从北桥芯片组上转移到CPU片上,支持三通道

DDR3内存,内存读取延迟大幅减少,内存带宽则大幅提升,最多可达三倍。

快速通道互联(QPI):取代前端总线(FSB)的一种点到点连接技术,20位宽的QPI连

接其带宽可达惊人的每秒25.6GB,远超过原来的FSB。QPI最初能够发放异彩的是支持多

个处理器的服务器平台,QPI可以用于多处理器之间的互联。

Nehalem的核心部分比Core微架构新增加的功能主要有以下几方面:

New SSE4.2 Instructions (新增加SSE4.2指令)

Turbo Mode (内核加速模式)

Improved Lock Support (改进的锁定支持)

Additional Caching Hierarchy (新的缓存层次体系)

Deeper Buffers (更深的缓冲)

Improved Loop Streaming (改进的循环流)

Simultaneous Multi-Threading (同步多线程)

Faster Virtualization (更快的虚拟化)

Better Branch Prediction (更好的分支预测)

2009年第四季度:

Clarkdale将于今年第四季度推出,LGA1156接口,双核心四线程。它不但将是Intel(以

及整个业界)的第一款32nm工艺芯片,也会是首次集成图形核心的处理器。与之对应的移

动版本Arrandale采用类似的架构,只不过要到明年才会发布。不过值得注意的是,

Clarkdale上只有处理器部分才是32nm工艺,同一基片上的独立图形核心(以及双通道

DDR3内

Intel的处理器构架简介(比较有代表性的):

一、P5与P6架构

奔腾采用P5架构,这被证明是伟大的创举。在英特尔的发展历史中,第一代奔腾绝

对是具有里程碑意义的产品,这一品牌甚至沿用至今,已经有十几年的历史了。尽管第一

代奔腾 60的综合表现很一般,甚至不比486DX66强多少,但是当主频优势体现出来之

后,此时所表现出来的威力令人震惊。奔腾 75、奔腾 100以及奔腾 133,经典的产品一

度称雄业界。

在奔腾时代,虽然英特尔在处理器微架构方面一直保持着领先,但是英特尔并未停止

前进的步伐,于是在发布奔腾的下一代产品奔腾 II时,英特尔采用了专利保护的P6架构。

P6架构与奔腾的P5架构最大的不同在于,以前集成在主板上的二级缓存被移植到了处理

器内,从而大大地加快了数据读取和命中率,提高了性能。

二、NetBurst架构

Netburst微架构是P6微架构的后继者,第一个使用这架构的是Willamette核心,

于2000年推出。Willamette是第一代奔腾 IV处理器所用的核心,而全部的奔腾 IV处

理器都是使用Netburst微架构。2001年推出的Foster(至强处理器)也是使用本架构,

同时基于奔腾 IV的赛扬、赛扬 D,以及双核心的奔腾 D、奔腾 Extreme Edition都是使

用本架构。

立足于性能而设计的英特尔NetBurst微架构将频率提升超过了40%,虽然IPC值较

低,但由于频率的增加弥补了不足(性能=频率×IPC),并且为最终用户提供了更高的整体

性能。和P6微架构一样,英特尔NetBurst微架构凭借无序推测执行,尽管分支预测算法

相当精确,但也不可能100%正确。

为了使由于分支误预测而引起的损失降到最低并使IPC均值最大化,采用扩展深度流

水线技术的Intel NetBurst微架构极大地减小了分支预测错误的数量,并提供了从这些错

误恢复的快速方法。为了能使误预测引起的损失最小,英特尔NetBurst微架构实现了高

级动态执行引擎和一个执行跟踪缓存。

不过值得一提的是,英特尔NetBurst微架构中使用了超流水线技术,这使得流水线

的深度相比P6微处理器体系结构的提高了一倍,不过在后来的实际应用中表明提高流水

线长度之后会令执行效率大幅度降低, 能够弥补这个问题的办法只能是再次提高主频和增

加二级缓存容量。

不过由于当时处理器工艺制成的限制,导致处理器的主频的可提升空间越来越小, 与

此同时巨大的缓存容量也是一个负担,这不仅提高了成本,也令发热量骤升。这一点使得

英特尔必须要及时地对处理器微架做出新的,根本性地调整。

三、Core微架构

由于NetBurst架构已经无法满足未来处理器发展的需要,所以英特尔于2006年推出

了具有革新意义的Core微架构。

1.流水线效率大幅度提升

主频至上的处理器研发思路显然已经被淘汰。Core微架构的处理器将超流水线缩短到

14级,这将大幅度提升整体效率。此外Core微架构采用了四组指令编译器,就是指能够

在单一频率周期内编译四个x86指令。这四组指令编译器由三组简单编译器(Simple

Decoder)与一组复杂编译器(Complex Decoder)组成。四组指令编译器中,仅有复杂

编译器可处理最多由四个微指令所组成的复杂x86指令。如果不幸碰到非常复杂的指令,

复杂编译器就必须呼叫微码循序器(Microcode Sequencer),以便取得微指令序列。

为了配合超宽的编译单元,Core微架构的指令读取单元在一个频率周期内,从第一阶

指令快取中,抓取六个x86指令至指令编译缓冲区(Instruction Queue),判定是否有符

合宏指令融合的配对,然后再将最多五个x86指令,交派给四组指令编译器。四组指令编

译器在每个频率周期中,发给保留站(Reservation Station)四个编译后的微指令,保留

站再将存放的微指令交派(dispatch)给五个执行单元。

因为x86指令集的指令长度、格式与定址模式都相当混乱,导致x86指令解码器的设

计是非常困难的。但是如今的局面已经有所改变,一方面是高主频对于四组精简结构有着

很大的依赖性,另一方面是其它辅助性技术也能很大程度上弥补解决定址模式混乱的难题。

毫无疑问,英特尔的这一创举将是在处理器核心架构设计上具有里程碑意义的。

2.全新的整数与浮点单元

从P6到NetBurst架构,整数与浮点单元的变化还是相当明显,不过Core微架构的

变化也同样不小,只是部分关键技术又改回P6架构时代的设计。Core具备了3个64bit

的整数执行单元,每一个都可以单独完成的64位整数运算操作。

能够独立完成64bit整数运算对英特尔 x86处理器来说还是头一回,这也让Core得

以走在了竞争对手的前列。此外,64bit的整数单元使用彼此独立的数据端口,因此Core

能够在一个周期内同时完成3组64bit的整数运算。极强的整数运算单元使得Core在包

括游戏、服务器项目、移动等方面都能够发挥广泛而强大的作用。

在以往的NetBurst架构中,浮点单元的性能很一般,Core构架针对这个问题进行了

不小的改进。Core构架拥有2个浮点执行单元同时处理向量和标量的浮点运算,其中一个

浮点单元执行负责加减等简单的处理,而另一个浮点单元则执行负责乘除等运算。尽管不

能说Core构架令浮点性能有很大幅度的提升,但是其改进效果还是显而易见的。

3.数据预读机制与缓存结构

Core微架构的预读取机制还有更多新特性。数据预取单元经常需要在缓存中进行标签

查找。为了避免标签查找可能带来的高延迟,数据预取单元使用存储接口进行标签查找。

存储操作在大多数情况下并不是影响系统性能的关键,因为在数据开始写入时,处理器即

可以马上开始进行下面的工作,而不必等待写入操作完成。缓存/内存子系统会负责数据的

整个写入到缓存、复制到主内存的过程。

此外,Core架构使用了Smart Memory Access算法,这将帮助处理器在前端总线

与内存传输之间实现更高的效率。

Core架构的缓存系统也令人印象深刻。双核心Core架构的二级缓存容量高达4MB,

且两个核心共享,访问延迟仅12到14个时钟周期。每个核心还拥有32KB的一级指令缓

存和一级数据缓存,访问延迟仅仅3个时钟周期。从 NetBurst架构开始引入的追踪式缓

存(Trace Cache)在 Core架构中消失了。NetBurst 架构中的追踪式缓存的作用与常见

的指令缓存相类似,是用来存放解码前的指令的,对NetBurst架构的长流水线结构非常

有用,而Core架构回归相对较短的流水线之后,追踪式缓存也随之消失。

四:Nehalem微架构

经历Core微架构的辉煌之后,英特尔再接再厉,于2008年末推出了新的Nehalem

微架构, 它基本是建立在Core微架构的骨架上,外加增添了SMT、3层Cache、TLB和

分支预测的等级化、IMC、QPI和支持DDR3等技术,比起从Pentium 4的NetBurst架

构到Core 微架构的较大变化来说,从Core微架构到Nehalem微架构的基本核心部分的

变化则要小一些。

总线技术

Nehalem架构使用的QPI总线是基于数据包传输(packet-based)、高带宽、低延迟

的点到点互连技术(point to point interconnect),速度达到6.4GT/s(每秒可以传输6.4G

次数据)。每一条连接(link)是20bit位宽的接口,使用高速的差分信号(differential

signaling)和专用的时钟通道(dedicated clock lane),这些时钟通道具有失效备援

(failover)。QPI数据包是80bit的长度,发送需要用4个周期。尽管数据包是80bit,

但只有64bit是用于数据,其它的数据位则是用于流量控制、CRC和其它一些目的。这样,

每条连接就一次传输16bit(2Byte)的数据,其余的位宽则是用于CRC。由于QPI总线

可以双向传输,那么一条QPI总线连接理论最大值就可以达到25.6GB/s(2×2B×6.4GT/s)

的数据传送。单向则是12.8GB/s。(更详细资料参考“快速通道互联QPI”词条)

整合内存控制器

Nehalem架构的IMC(integrated memory controller,整合内存控制器),可以支

持3通道的DDR3内存,运行在1.33GT/s(DDR3-1333),这样总共的峰值带宽就可以

达到32GB/s。不过还并不支持FB-DIMM,要Nehalem EX(Beckton)才有可能会支持

FB-DIMM(Fully Buffered-DIMM,全缓冲内存模组)。每通道的内存都能够独立操作,

控制器需要乱序执行来降低(掩盖)延迟。(更详细资料参见整合内存控制器词条)

同步多线程(Simultaneous Multi-Threading,SMT)技术又重新回归到了Nehalem

架构,这最早出现在130纳米的奔腾IV上。对于打开了SMT的处理器来说,将会遭受到

更多的命中失败,并需要使用更多的带宽。所以Nehalem比奔腾IV是更适合使用SMT

的。

Nehalem的同步多线程(Simultaneous Multi-Threading,SMT)是2-way的,每

核心可以同时执行2个线程。对于执行引擎来说,在多线程任务的情况下,就可以掩盖单

个线程的延迟。SMT功能的好处是只需要消耗很小的核心面积代价,就可以在多任务的情

况下提供显著的性能提升,比起完全再添加一个物理核心来说要划算得多。这个和以前P4

的HT技术是一样的,但比较起来,Nehalem的优势是有更大的缓存和更大的内存带宽,

这样就更能够有效的发挥。按照英特尔的说法,Nehalem的SMT可以在增加很少能耗的

情况下,让性能提升20-30%。(更详细资料参见同步多线程技术词条)

4.全新设计的缓存体系

Nehalem的每个核心有一个私有的通用型L2,是8路联合的256KB,访问速度相当

快。Nehalem的L2相对于其L1D来说,既不是包含式(inclusive)也不是独占式

(exclusive),可以在两个核心的私有缓存(L1D和L2)之间传递数据,尽管不能够达到

全速。

与Core微架构相比,Nehalem新增加了一层L3缓存,这是为了多个核心共享数据

的需要(Nehalem-EX具有8个核心),也因此这个L3的容量很大。从架构上看,目前

Nehalem架构的处理器所配备的16路联合、8MB的L3对于前两级来说,是完全包含式

的,并且由4个核心共享。

作为IT行业巨头,Intel一直在为推动计算机行业的发展做出不懈努力,可以说Intel

和Microsoft的发展方向便是IT行业的发展方向。

将来,32nm,25nm,以及更新的架构与制程,16核,32核,80核以及更多核心

的处理器,22W,19W,0.6W以及更好的节能技术,INTEL将代表着IT行业的发展大方

向,技术领先,超越未来。

共享式大容量二/三级缓存

高频低能的Pentium 4和Pentium D苦苦抵抗Athlon 64和Athlon 64 X2疯狂进

攻的同时,Intel也在秘密研发新一代Core微处理器架构,全新的Core 2 Duo虽然没有

整合内存控制器,但凭借高效率、低层级流水线和融合大量先进技术的指令架构,Core 2

Duo一举击败Athlon 64 X2成为新的性能之王。

当然,Intel还有另外一项创新性的技术也助Core 2 Duo一臂之力,拉大与对手的优

势,它就是Intel Advanced Smart Cache(高级智能缓存技术),简单来讲就是多颗处理

器核心共享大容量缓存,通常被称为共享式大容量二级缓存。

传统的双核心设计每个独立的核心都有自己的L2,但Intel Core微架构则是通过核心

内部的Shared Bus Router共用相同的L2,当CPU 1运算完毕后把结果存在L2时,CPU

0便可通过Shared Bus Router读取CPU 1放在共用L2上资料,大幅减低读取上的延迟

并减少使用FSB带宽,同时加入L2 & DCU Data Pre-fetchers及Deeper Write output

缓冲存储器,大幅增加了缓存的命中率。

与AMD K8双核心L2架构相比,CPU 0需要读取CPU 2 L2中数据时,首先需要向

系统总线发出需求,并通过Crossbar Switch就把取读资料,但CPU 0发现读取自己的

L2没有所要的数据才会要求读取CPU 1的L2资料,情况等同于CPU 0的L3,而共享式

的L2设计却没有以上需要。

Smart Cache架构还有很多不同的好处,例如当两颗核心工作量不平均时,如果独立

L2的双核心架构有机会出现其中一颗核心工作量过少,L2没有被有效地应用,但另一颗

核心的L2却因工作量过重,L2容量没法应付而需要传取系统内存,值得注意的是它并无

法借用另一颗核心的L2空间,但SmartCache因L2是共用的而没有这个问题。

共享式L2不但能够减少两颗核心之间读取缓存数据的延迟、提高数据命中率,而且还

能有效提高缓存利用率,避免分离式缓存存放重复数据的可能,变相提高的缓存容量。Intel

上代的Core 2 Duo和Core 2 Quad至今在性能方面并不输给AMD的Phenom II系列

处理器,其中共享式二级缓存设计功不可没。

★ 共享式三级缓存已成为主流:

共享式二级缓存固然拥有诸多优势,但需要对传统CPU架构进行大幅调整,双核心还

算容易、多核心就比较麻烦了,缓存的存取机制都需要完全重新设计。因此AMD另辟蹊

径,在保持现有二级缓存不变的情况下,直接新增大容量的三级缓存,从而为多核提供协

同运算的高速暂存数据仓库。

AMD初代的Phenom四核处理器就采用了共享式三级缓存设计,每颗核心的一级缓

存保持不变,二级缓存都是独立的512KB,三级缓存为一体式的2MB。而到了Phenom II

代,45nm工艺使得处理器能够整合更大容量的缓存,于是L3倍增至6MB,性能提升非

常明显。

Core i7 Die示意图

Intel在Core 2 Quad之后,也在酝酿全新的原生四核产品,此次Intel集所有先进技

术于一体,不仅整合了内存控制器,而且引入了比AMD HT更先进的QPI总线,还引入

了共享式三级缓存,容量高达8MB,比Phenom II还多2MB。

至于低端的双核Core i3/i5处理器,Intel为了保持架构统一,也放弃了Core 2上面

的共享二级缓存设计,每颗核心仅有256KB的独立L2,而是植入了4M容量的L3,虽然

总缓存容量不如E8X00系列的6MB L2,但性能上还是取得了长足的进步。

此后,32nm工艺的引入使得Intel可以在单一芯片之中集成更多的核心和更大的缓

存,所以我们看到i7-980X拥有六颗物理核心以及高达12MB的L3,性能更上一层楼,

令人叹为观止!

本文标签: 处理器架构英特尔