Intel平台
/ L2 l+ h5 `8 \6 @" l; m
, x5 N3 V, F/ E6 u* @Willamette核心CPU:, C! ^( b' h! C
所有Willamette核心CPU的FSB都是400MHz FSB。
$ I9 H. O: b @* Y/ w* ONorthwood核心CPU:" \, L9 [" F C
相对于Willamette核心CPU,Northwood核心CPU的前端总线频率则非常复杂,400MHz、533MHz和800MHz都有。其中,Celeron全部都是400MHz FSB;Pentium 4方面,1.6GHz-2.8GHz都有400MHz FSB的产品,例如1.8A、2.0A等等,Pentium 4型号后面带有"B"字样的则是533MHz FSB,带有"C"字样的则是800MHz FSB。
3 ^% v" `/ \- P9 @Prescott核心CPU:
! Z( x- A6 m2 {9 R, z Prescott核心的Celeron D,无论是Socket 478接口还是Socket 775接口,全部都是533MHz FSB。
1 r4 d+ ^6 f0 B. ` Socket 478接口的Pentium 4方面,2.4A和2.8A是533MHz FSB,其余的Socket 478 Pentium 4都是800MHz FSB,在产品型号后面带有"E"字样。' q! V0 T+ g' [0 f$ a# l
Socket 775接口的Pentium 4 5XX系列方面,编号尾数为"5"的是533MHz FSB,例如Pentium 4 505/515;编号尾数为"0"的是800MHz FSB,例如Pentium 4 520/530/540等等。即将推出的Pentium 4 6XX系列CPU则都是800MHz FSB。 c: h: y. o/ K9 w+ j$ I' s+ L9 ?
Pentium 4至尊版(即Pentium 4 EE,又称Pentium 4 XE):3 z$ Q) g0 F. o% {6 S ]. G) y
所有Socket 478接口的Pentium 4 EE都是800MHz FSB。Socket 775接口的Pentium 4 EE,Smithfield核心的3.4GHz是800MHz FSB,3.46GHz则是1066MHz FSB,这是目前PC上最高的前端总线频率。
' K6 B2 X8 J5 ^Pentium EE:) P! T& T4 b9 _' I# i4 N
Smithfield核心的Pentium EE 840是800MHz FSB,而Presler核心的Pentium EE 955和965都是1066MHz FSB。& u) F. B1 A4 a5 a( w1 ~
Xeon和Xeon MP:+ \7 [7 c0 p! `! @+ k6 h- g$ ?) m
所有Socket 603接口的Xeon和Xeon MP都是400MHz FSB;Socket 604接口的Xeon中,支持Intel 64位计算技术EM64T的Xeon是800MHz FSB,而不支持EM64T的Xeon则是533MHz FSB;Socket 604接口的Xeon MP则是667MHz FSB。
+ r/ H1 I8 q6 r3 m/ ACedar Mill核心CPU:
2 \* u- g1 ?2 \: H Cedar Mill核心的Celeron D目前都是533MHz FSB,而Cedar Mill核心的Pentium 4则都是800MHz FSB。
0 I3 J* Y" F( q3 f+ z0 GYonah核心CPU:+ X' [2 w+ v0 b. E B$ E
目前Yonah核心的Core Duo和Core Solo都是667MHz FSB,即将推出的超低功耗产品将会采用533MHz FSB,而高性能产品则将会采用800MHz FSB。% O! Z/ [: q1 W7 F+ M
$ }: P# _$ }3 ?2 `6 u4 K5 s AMD平台 / v0 J; Y1 W3 [$ c2 Y
% C7 [4 k+ W4 V5 H3 G + k. d& N5 t2 y- K
Socket A平台:$ E- R$ E3 \. }. E; Y* F
Socket A接口的Sempron是333MHz FSB,Socket 754接口的Sempron部分是333MHz FSB,使用0.09微米工艺的Sempron是800MHz FSB;Athlon XP方面,Palomino核心为266MHz FSB,Thoroughbred核心为266MHz和333MHz FSB,Barton核心为333MHz和400MHz FSB,而Thorton核心则为333MHz FSB。
7 Z& d, w+ j- G, H2 ~# L c+ J* ?AMD64平台:
* ]* U+ t0 D; P Socket 754接口CPU的HyperTransport频率是800MHz;Socket 939接口CPU的HyperTransport频率是1000MHz(个别OEM产品例外);旧版的Socket 940接口CPU的HyperTransport频率也是800MHz,而新版的Socket 940接口CPU的HyperTransport频率也已经提高到了1000MHz;即将推出的Socket AM2接口CPU、Socket S1接口CPU以及Socket F接口CPU的HyperTransport频率则都是1000MHz。
- O# A. o% @4 o ; L8 f9 V3 Z# v" P) Y( r
HyperTransport最初是AMD在1999年提出的一种总线技术,随着AMD64位平台的发布和推广,HyperTransport应用越来越广泛,也越来越被人们所熟知。1 A" h- z9 x1 k) a
HyperTransport是一种为主板上的集成电路互连而设计的端到端总线技术,它可以在内存控制器、磁盘控制器以及PCI总线控制器之间提供更高的数据传输带宽。HyperTransport采用类似DDR的工作方式,在400MHz工作频率下,相当于800MHz的传输频率。此外HyperTransport是在同一个总线中模拟出两个独立数据链进行点对点数据双向传输,因此理论上最大传输速率可以视为翻倍,具有4、8、16及32位频宽的高速序列连接功能。在400MHz下,双向4bit模式的总线带宽为0.8GB/sec,双向8bit模式的总线带宽为1.6GB/sec;800MHz下,双向8bit模式的总线带宽为3.2GB/sec,双向16bit模式的总线带宽为6.4GB/sec,双向32bit模式的总线带宽为12.8GB/sec。以400MHz下,双向4bit模式为例,带宽计算方法为400MHz×2×2×4bit÷8=0.8GB/sec。
0 @- A4 T; h! u7 G. O7 D HyperTransport还有一大特色,就是当数据位宽并非32bit时,可以分批传输数据来达到与32bit相同的效果。例如16bit的数据就可以分两批传输,8bit的数据就可以分四批传输,这种数据分包传输的方法,给了HyperTransport在应用上更大的弹性空间。
% ] N6 B" p( ~ [: n5 R) h5 g. I+ v 2004年2月,HyperTransport技术联盟(Hyper Transport Technology Consortium)又正式发布了HyperTransport 2.0规格,由于采用了Dual-data技术,使频率成功提升到了1.0GHz、1.2GHz和1.4GHz,数据传输带宽由每通道1.6Gb/sec提升到了2.0GB/sec、2.4Gb/sec和2.8GB/sec,最大带宽由原来的12.8Gb/sec提升到了22.4GB/sec。
9 J# p# ]: f" o3 r" J+ v% x 当HyperTransport应用于内存控制器时,其实也就类似于传统的前端总线(FSB,Front Side Bus),因此对于将HyperTransport技术用于内存控制器的CPU来说,其HyperTransport的频率也就相当于前端总线的频率。
' f K! ~$ x5 Q
: W5 X. ~6 d& e# I# g5 }. Y5 [. F1 n
9 l7 p6 b' G8 [
; V7 C& ?5 h1 F/ a5 {" k4 t+ g 10\ 针脚数 & O K6 T* `& E
. {9 U6 x9 _9 ~ 目前CPU都采用针脚式接口与主板相连,而不同的接口的CPU在针脚数上各不相同。CPU接口类型的命名,习惯用针脚数来表示,比如目前Pentium 4系列处理器所采用的Socket 478接口,其针脚数就为478针;而Athlon XP系列处理器所采用的Socket 939接口,其针脚数就为939针。$ z" B; x; E4 z' I+ R6 K0 {7 q
原则上CPU性能的好坏和针脚数的多少是没有关系的,而且CPU上的针脚也并不是每个针脚都是起作用的,也就是说其实CPU上还有些针脚是没有任何作用的“摆设”,是闲置起的。这是因为CPU厂商在设计CPU时,必然会考虑到今后一段时间内的功能扩展和性能提高,而会预留一些暂时不起作用的针脚以便今后改进。不过随着CPU技术的发展,需要越来越多的CPU针脚以实现更丰富的功能以及更高的性能,例如集成双通道内存控制器所需要的针脚数量就要比只集成单通道内存控制器所需要的针脚数要多得多,因此总的来说CPU针脚数有越来越多的趋势,基本上可以认为针脚多的CPU其架构也越先进。但是任何事物都不是绝对的,例如AMD在移动平台上用来取代Socket 754的Socket S1其针脚数反而从754根减少到了638根。, H5 B6 o" `6 Q- M' Q! o N
2 R; V6 e: i* C3 | 11\ 制作工艺
; H. P4 o i0 @0 e, w5 T' N) ]
9 d8 _% X; x8 A. p' [! F* g 通常我们所说的CPU的“制作工艺”指得是在生产CPU过程中,要进行加工各种电路和电子元件,制造导线连接各个元器件。通常其生产的精度以微米(长度单位,1微米等于千分之一毫米)来表示,未来有向纳米(1纳米等于千分之一微米)发展的趋势,精度越高,生产工艺越先进。在同样的材料中可以制造更多的电子元件,连接线也越细,提高CPU的集成度,CPU的功耗也越小。; t4 s" l5 T& M6 |
制造工艺的微米是指IC内电路与电路之间的距离。制造工艺的趋势是向密集度愈高的方向发展,。密度愈高的IC电路设计,意味着在同样大小面积的IC中,可以拥有密度更高、功能更复杂的电路设计。微电子技术的发展与进步,主要是靠工艺技术的不断改进,使得器件的特征尺寸不断缩小,从而集成度不断提高,功耗降低,器件性能得到提高。芯片制造工艺在1995年以后,从0.5微米、0.35微米、0.25微米、0.18微米、0.15微米、0.13微米、90纳米一直发展到目前最新的65纳米,而45纳米和30纳米的制造工艺将是下一代CPU的发展目标。
' z0 l1 _3 Q# n3 I0 C1 m2 u( z 提高处理器的制造工艺具有重大的意义,因为更先进的制造工艺会在CPU内部集成更多的晶体管,使处理器实现更多的功能和更高的性能;更先进的制造工艺会使处理器的核心面积进一步减小,也就是说在相同面积的晶圆上可以制造出更多的CPU产品,直接降低了CPU的产品成本,从而最终会降低CPU的销售价格使广大消费者得利;更先进的制造工艺还会减少处理器的功耗,从而减少其发热量,解决处理器性能提升的障碍.....处理器自身的发展历史也充分的说明了这一点,先进的制造工艺使CPU的性能和功能一直增强,而价格则一直下滑,也使得电脑从以前大多数人可望而不可及的奢侈品变成了现在所有人的日常消费品和生活必需品。
; \! P- ?, x/ l6 J5 K3 {! G6 E8 s
4 Y& ], ~3 o( R M+ A
! m! r0 f3 x1 w7 x( g$ j' L8 B 12\ 核心电压 8 t. M7 O5 y" @/ r
$ K h P, P' E$ o! I3 V CPU的工作电压(Supply Voltage),即CPU正常工作所需的电压。任何电器在工作的时候都需要电,自然也有对应额定电压,CPU也不例外。目前CPU的工作电压有一个非常明显的下降趋势,较低的工作电压主要三个优点:: L5 M4 K, x5 J
采用低电压的CPU的芯片总功耗降低了。功耗降低,系统的运行成本就相应降低,这对于便携式和移动系统来说非常重要,使其现有的电池可以工作更长时间,从而使电池的使用寿命大大延长;
! M; a# p! I& ~/ a3 x. n功耗降低,致使发热量减少,运行温度不过高的CPU可以与系统更好的配合;
# ] L1 j8 k( f# ^$ d降低电压是CPU主频提高的重要因素之一。
& o# O! q3 |- d CPU的工作电压分为两个方面,CPU的核心电压与I/O电压。核心电压即驱动CPU核心芯片的电压,I/O电压则指驱动I/O电路的电压。通常CPU的核心电压小于等于I/O电压。
: O) O2 e: G" C; d9 Y 早期CPU(286~486时代)的核心电压与I/O一致,通常为5V,由于当时的制造工艺相对落后,以致CPU的发热量过大,导致其寿命缩短。不过那时的CPU集成度很低,而目前的CPU集成度相当高,因此显得现在的CPU发热量更大。随着CPU的制造工艺提高,近年来各种CPU的工作电压有逐步下降的趋势,目前台式机用CPU核电压通常为2V以内,笔记本专用CPU的工作电压相对更低,从而达到大幅减少功耗的目的,以延长电池的使用寿命,并降低了CPU发热量。而且现在的CPU会通过特殊的电压ID(VID)引脚来指示主板中嵌入的电压调节器自动设置正确的电压级别。
! G$ F/ z$ x4 R% V1 ^ 许多面向新款CPU的主板都会提供特殊的跳线或者软件设置,通过这些跳线或软件,可以根据具体需要手动调节CPU的工作电压。很多实验表明在超频的时候适度提高核心电压,可以加强CPU内部信号,对CPU性能的提升会有很大帮助——但这样也会提高CPU的功耗,影响其寿命及发热量,建议一般用户不要进行此方面的操作。* f" W' a, n) F, e
此外从Vinice核心的Athlon 64开始,AMD在Socket 939接口的处理器上采用了动态电压,在CPU封装上不再标明CPU的默认核心电压,同一核心的CPU其核心电压是可变的,不同的CPU可能会有不同的核心电压:1.30V、1.35V或1.40V。% X) m2 [4 q6 a
, h1 H( Z. Z5 I/ H2 k4 P
/ W& Z* Z$ g; Q7 c7 F8 R1 {
13\ 超线程技术
& l1 q" G9 x3 ?4 d - X9 l+ l9 I, s; L$ l: D
CPU生产商为了提高CPU的性能,通常做法是提高CPU的时钟频率和增加缓存容量。不过目前CPU的频率越来越快,如果再通过提升CPU频率和增加缓存的方法来提高性能,往往会受到制造工艺上的限制以及成本过高的制约。" n, x7 p" Q0 ?- _" C& I/ j5 \- t
尽管提高CPU的时钟频率和增加缓存容量后的确可以改善性能,但这样的CPU性能提高在技术上存在较大的难度。实际上在应用中基于很多原因,CPU的执行单元都没有被充分使用。如果CPU不能正常读取数据(总线/内存的瓶颈),其执行单元利用率会明显下降。另外就是目前大多数执行线程缺乏ILP(Instruction-Level Parallelism,多种指令同时执行)支持。这些都造成了目前CPU的性能没有得到全部的发挥。因此,Intel则采用另一个思路去提高CPU的性能,让CPU可以同时执行多重线程,就能够让CPU发挥更大效率,即所谓“超线程(Hyper-Threading,简称“HT”)”技术。超线程技术就是利用特殊的硬件指令,把两个逻辑内核模拟成两个物理芯片,让单个处理器都能使用线程级并行计算,进而兼容多线程操作系统和软件,减少了CPU的闲置时间,提高的CPU的运行效率。0 d0 T+ r& X4 U; O
采用超线程及时可在同一时间里,应用程序可以使用芯片的不同部分。虽然单线程芯片每秒钟能够处理成千上万条指令,但是在任一时刻只能够对一条指令进行操作。而超线程技术可以使芯片同时进行多线程处理,使芯片性能得到提升。
9 H. Y3 d$ D6 A6 s8 g0 \8 |, s 超线程技术是在一颗CPU同时执行多个程序而共同分享一颗CPU内的资源,理论上要像两颗CPU一样在同一时间执行两个线程,P4处理器需要多加入一个Logical CPU Pointer(逻辑处理单元)。因此新一代的P4 HT的die的面积比以往的P4增大了5%。而其余部分如ALU(整数运算单元)、FPU(浮点运算单元)、L2 Cache(二级缓存)则保持不变,这些部分是被分享的。
3 D y p- R8 w. k9 L' l 虽然采用超线程技术能同时执行两个线程,但它并不象两个真正的CPU那样,每各CPU都具有独立的资源。当两个线程都同时需要某一个资源时,其中一个要暂时停止,并让出资源,直到这些资源闲置后才能继续。因此超线程的性能并不等于两颗CPU的性能。1 \, Q3 K- k; ]8 a' [# Z. l
英特尔P4 超线程有两个运行模式,Single Task Mode(单任务模式)及Multi Task Mode(多任务模式),当程序不支持Multi-Processing(多处理器作业)时,系统会停止其中一个逻辑CPU的运行,把资源集中于单个逻辑CPU中,让单线程程序不会因其中一个逻辑CPU闲置而减低性能,但由于被停止运行的逻辑CPU还是会等待工作,占用一定的资源,因此Hyper-Threading CPU运行Single Task Mode程序模式时,有可能达不到不带超线程功能的CPU性能,但性能差距不会太大。也就是说,当运行单线程运用软件时,超线程技术甚至会降低系统性能,尤其在多线程操作系统运行单线程软件时容易出现此问题。) @; s8 F) J/ o* w& C! w* K
需要注意的是,含有超线程技术的CPU需要芯片组、软件支持,才能比较理想的发挥该项技术的优势。目前支持超线程技术的芯片组包括如:英特尔i845GE、PE及矽统iSR658 RDRAM、SiS645DX、SiS651可直接支持超线程;英特尔i845E、i850E通过升级BIOS后可支持;威盛P4X400、P4X400A可支持,但未获得正式授权。操作系统如:Microsoft Windows XP、Microsoft Windows 2003,Linux kernel 2.4.x以后的版本也支持超线程技术。
8 t! ^, v3 b, k1 D, U
" u6 B) t* ~2 A4 V9 S$ k5 n3 @2 O7 k: q. |: T
14\ 多媒体指令集
" M/ ^! U5 J E5 \) e! P, [
4 Q0 G j0 X4 L- v( G z' @ CPU依靠指令来计算和控制系统,每款CPU在设计时就规定了一系列与其硬件电路相配合的指令系统。指令的强弱也是CPU的重要指标,指令集是提高微处理器效率的最有效工具之一。从现阶段的主流体系结构讲,指令集可分为复杂指令集和精简指令集两部分,而从具体运用看,如Intel的MMX(Multi Media Extended)、SSE、 SSE2(Streaming-Single instruction multiple data-Extensions 2)和AMD的3DNow!等都是CPU的扩展指令集,分别增强了CPU的多媒体、图形图象和Internet等的处理能力。我们通常会把CPU的扩展指令集称为"CPU的指令集"。
. X5 b5 c0 x- Y; z6 h( W `4 D
% ^4 O" x, j7 _% @2 p3 i精简指令集的运用3 T5 u1 v- r; n( m/ c
在最初发明计算机的数十年里,随着计算机功能日趋增大,性能日趋变强,内部元器件也越来越多,指令集日趋复杂,过于冗杂的指令严重的影响了计算机的工作效率。后来经过研究发现,在计算机中,80%程序只用到了20%的指令集,基于这一发现,RISC精简指令集被提了出来,这是计算机系统架构的一次深刻革命。RISC体系结构的基本思路是:抓住CISC指令系统指令种类太多、指令格式不规范、寻址方式太多的缺点,通过减少指令种类、规范指令格式和简化寻址方式,方便处理器内部的并行处理,提高VLSI器件的使用效率,从而大幅度地提高处理器的性能。
; u: T' n2 V" R C M A' B9 ? RISC指令集有许多特征,其中最重要的有:
" q8 i! r0 u Q# a% ` n% O& N指令种类少,指令格式规范:RISC指令集通常只使用一种或少数几种格式。指令长度单一(一般4个字节),并且在字边界上对齐。字段位置、特别是操作码的位置是固定的。
5 S/ V. _% Z% z' k( \$ r寻址方式简化:几乎所有指令都使用寄存器寻址方式,寻址方式总数一般不超过5个。其他更为复杂的寻址方式,如间接寻址等则由软件利用简单的寻址方式来合成。
& Z$ i( f/ R& \% X7 m# X5 {大量利用寄存器间操作:RISC指令集中大多数操作都是寄存器到寄存器操作,只以简单的Load和Store操作访问内存。因此,每条指令中访问的内存地址不会超过1个,访问内存的操作不会与算术操作混在一起。
+ M+ z2 \' y6 `/ Q- `简化处理器结构:使用RISC指令集,可以大大简化处理器的控制器和其他功能单元的设计,不必使用大量专用寄存器,特别是允许以硬件线路来实现指令操作,而不必像CISC处理器那样使用微程序来实现指令操作。因此RISC处理器不必像CISC处理器那样设置微程序控制存储器,就能够快速地直接执行指令。
. r* @- {# s/ n: `& ~: \6 ^便于使用VLSI技术:随着LSI和VLSI技术的发展,整个处理器(甚至多个处理器)都可以放在一个芯片上。RISC体系结构可以给设计单芯片处理器带来很多好处,有利于提高性能,简化VLSI芯片的设计和实现。基于VLSI技术,制造RISC处理器要比CISC处理器工作量小得多,成本也低得多。 0 }1 K1 T; d( V$ o% N" S
加强了处理器并行能力:RISC指令集能够非常有效地适合于采用流水线、超流水线和超标量技术,从而实现指令级并行操作,提高处理器的性能。目前常用的处理器内部并行操作技术基本上是基于RISC体系结构发展和走向成熟的。
L' c0 p9 ?& g% [2 U' Y4 f 正由于RISC体系所具有的优势,它在高端系统得到了广泛的应用,而CISC体系则在桌面系统中占据统治地位。而在如今,在桌面领域,RISC也不断渗透,预计未来,RISC将要一统江湖。8 O, H. m: H1 ~, e$ n N: V, J
+ [( x% I! B7 `$ F, ZCPU的扩展指令集+ A: d6 t6 t& j! f$ q; \
对于CPU来说,在基本功能方面,它们的差别并不太大,基本的指令集也都差不多,但是许多厂家为了提升某一方面性能,又开发了扩展指令集,扩展指令集定义了新的数据和指令,能够大大提高某方面数据处理能力,但必需要有软件支持。
& _2 `! r# g! P9 UMMX 指令集
) i* b4 E: ^: C" ~, F MMX(Multi Media eXtension,多媒体扩展指令集)指令集是Intel公司于1996年推出的一项多媒体指令增强技术。MMX指令集中包括有57条多媒体指令,通过这些指令可以一次处理多个数据,在处理结果超过实际处理能力的时候也能进行正常处理,这样在软件的配合下,就可以得到更高的性能。MMX的益处在于,当时存在的操作系统不必为此而做出任何修改便可以轻松地执行MMX程序。但是,问题也比较明显,那就是MMX指令集与x87浮点运算指令不能够同时执行,必须做密集式的交错切换才可以正常执行,这种情况就势必造成整个系统运行质量的下降。0 l* u# {2 ~. F
SSE指令集6 {2 F) T: j- N1 d0 `* y. O9 D
SSE(Streaming SIMD Extensions,单指令多数据流扩展)指令集是Intel在Pentium III处理器中率先推出的。其实,早在PIII正式推出之前,Intel公司就曾经通过各种渠道公布过所谓的KNI(Katmai New Instruction)指令集,这个指令集也就是SSE指令集的前身,并一度被很多传媒称之为MMX指令集的下一个版本,即MMX2指令集。究其背景,原来"KNI"指令集是Intel公司最早为其下一代芯片命名的指令集名称,而所谓的"MMX2"则完全是硬件评论家们和媒体凭感觉和印象对"KNI"的 评价,Intel公司从未正式发布过关于MMX2的消息。
* U5 s, h2 o- L" _5 J) @ 而最终推出的SSE指令集也就是所谓胜出的"互联网SSE"指令集。SSE指令集包括了70条指令,其中包含提高3D图形运算效率的50条SIMD(单指令多数据技术)浮点运算指令、12条MMX 整数运算增强指令、8条优化内存中连续数据块传输指令。理论上这些指令对目前流行的图像处理、浮点运算、3D运算、视频处理、音频处理等诸多多媒体应用起到全面强化的作用。S SE指令与3DNow!指令彼此互不兼容,但SSE包含了3DNow!技术的绝大部分功能,只是实现的方法不同。SSE兼容MMX指令,它可以通过SIMD和单时钟周期并行处理多个浮点数据来有效地提高浮点运算速度。
7 q. a( X, V8 U: } x( i5 ~ OSSE2指令集
$ b; g) b+ Z, e: D$ ^: N: ?% Y SSE2(Streaming SIMD Extensions 2,Intel官方称为SIMD 流技术扩展 2或数据流单指令多数据扩展指令集 2)指令集是Intel公司在SSE指令集的基础上发展起来的。相比于SSE,SSE2使用了144个新增指令,扩展了MMX技术和SSE技术,这些指令提高了广大应用程序的运行性能。随MMX技术引进的SIMD整数指令从64位扩展到了128 位,使SIMD整数类型操作的有效执行率成倍提高。双倍精度浮点SIMD指令允许以 SIMD格式同时执行两个浮点操作,提供双倍精度操作支持有助于加速内容创建、财务、工程和科学应用。除SSE2指令之外,最初的SSE指令也得到增强,通过支持多种数据类型(例如,双字和四字)的算术运算,支持灵活并且动态范围更广的计算功能。SSE2指令可让软件开发员极其灵活的实施算法,并在运行诸如MPEG-2、MP3、3D图形等之类的软件时增强性能。Intel是从Willamette核心的Pentium 4开始支持SSE2指令集的,而AMD则是从K8架构的SledgeHammer核心的Opteron开始才支持SSE2指令集的。9 W0 ~$ R/ X5 q* m! W- a/ f
SSE3指令集4 T5 K6 l3 |% R2 t, X+ L
SSE3(Streaming SIMD Extensions 3,Intel官方称为SIMD 流技术扩展 3或数据流单指令多数据扩展指令集 3)指令集是Intel公司在SSE2指令集的基础上发展起来的。相比于SSE2,SSE3在SSE2的基础上又增加了13个额外的SIMD指令。SSE3 中13个新指令的主要目的是改进线程同步和特定应用程序领域,例如媒体和游戏。这些新增指令强化了处理器在浮点转换至整数、复杂算法、视频编码、SIMD浮点寄存器操作以及线程同步等五个方面的表现,最终达到提升多媒体和游戏性能的目的。Intel是从Prescott核心的Pentium 4开始支持SSE3指令集的,而AMD则是从2005年下半年Troy核心的Opteron开始才支持SSE3的。但是需要注意的是,AMD所支持的SSE3与Intel的SSE3并不完全相同,主要是删除了针对Intel超线程技术优化的部分指令。
9 l8 B8 i+ Y" [8 R4 }3D Now !指令集