Intel P6

P6 är en superskalär superpipelining-arkitektur utvecklad av Intel och som ligger till grund för mikroprocessorerna Pentium Pro , Pentium II , Pentium III , Celeron och Xeon . Till skillnad från x86 -kompatibla processorer från tidigare generationer med en CISC- kärna, har P6-arkitekturprocessorer en RISC- kärna som exekverar komplexa x86-instruktioner inte direkt, utan först avkodar dem till enkla interna mikrooperationer.

Den första processorn i P6-arkitekturen var Pentium Pro-processorn, tillkännagiven den 1 november 1995 , riktad mot arbetsstations- och servermarknaden . Pentium Pro-processorerna släpptes parallellt med P5- arkitekturprocessorerna ( Pentium och Pentium MMX ) designade för persondatorer . Den 7 maj 1997 tillkännagav Intel Pentium II-processorn, som ersatte P5-arkitekturprocessorerna. [ett]

År 2000 ersattes P6-arkitekturen på marknaden för stationära och serverprocessorer av NetBurst- arkitekturen , men P6-arkitekturen utvecklades i Pentium M- och Core -mobilprocessorerna . 2006 ersattes processorerna i NetBurst-arkitekturen av Core 2 Duo- familjen av processorer , vars arkitektur också är en utveckling av P6-arkitekturen. [2] [3]

Funktionella enheter

P6-arkitekturprocessorer består av fyra huvuddelsystem:

In-Order Front End (IOFE ) undersystem - ansvarar för att hämta och avkoda instruktioner i den ordning som programmet tillhandahåller och förutsäger övergångar .
Out-of-Order Core (O2C ) ansvarar för att utföra mikrooperationer i optimal ordning och organiserar interaktionen mellan exekveringsenheter .
Ordered Completion Subsystem ( In-Order Retirement, IOR ) - utfärdar resultatet av utförandet i den ordning som programmet tillhandahåller .
Minnesdelsystemet ( eng. memory subsystem ) - tillhandahåller interaktion mellan processorn och RAM.

Beställt Preprocessing Subsystem

Enheterna i detta delsystem inkluderar:

Branch Target Buffer (BTB ) modul och buffert - förutsäg grenar och lagra grenhistoriktabellen. Både dynamiska och statiska metoder används för förutsägelse. Den senare används om dynamisk förutsägelse inte är möjlig (nödvändig information saknas i hopptabellen).
Instruktionsavkodare - omvandlar x86 CISC -instruktioner till en sekvens av RISC -mikrooperationer som exekveras av processorn. Innehåller två enkla instruktionsavkodare ( Simple ) som bearbetar instruktioner som kan exekveras med en enda mikrooperation, och en komplex instruktionsavkodare ( Complex ) som bearbetar instruktioner som kräver flera (upp till fyra) mikrooperationer.
Mikrokodsekvenserare - lagrar sekvenser av mikrooperationer som används vid avkodning av komplexa x86-instruktioner som kräver mer än fyra mikrooperationer.
Nästa instruktionsadressberäkningsblock ( Next IP Unit ) - beräknar adressen till instruktionen ( engelsk instruktionspekare, IP ) som ska bearbetas härnäst, baserat på information om avbrott och en hopptabell.
Instruction Fetch Unit (IFU ) - hämtar instruktioner från minnet på adresser som förbereds av nästa instruktionsadressberäkningsenhet.

Processorer baserade på Tualatin-kärnan innehåller dessutom en instruktionsförhämtare ( Prefetcher ), som förhämtar instruktioner baserat på grentabellen.

Utförandekärna med återsekvensering

Exekvering utanför sekvensen, som ändrar ordningsföljden i vilka instruktioner exekveras utan att resultatet ändras, påskyndar arbetet genom att bättre distribuera förfrågningar till hjälpblock och minimera deras stilleståndstid. Enheter för att organisera prestanda med en ändring i sekvens inkluderar:

Register Alias Table — ställer in överensstämmelsen mellan x86/IA32-arkitekturregister (Intel Architecture 32-bitars) och interna register som används vid exekvering av mikrooperationer.
Micro -operations omordningsbuffert ( Reorder Buffer ) - säkerställer att mikrooperationer utförs i den optimala sekvensen vad gäller prestanda.
Reservationsstation - innehåller instruktioner som skickas till exekveringsenheter.

Kärnexekveringsenheter inkluderar:

Aritmetiska logiska enheter, ALU ( Arithmetic Logic Unit, ALU ) - utför heltalsoperationer.
Flyttalsenhet (FPU ) - utför operationer på flyttalsnummer. Pentium III och högre processorer har också en enhet som exekverar SSE- instruktioner ( SIMD FPU ).
Address Generation Unit (AGU ) - beräknar adresserna för de data som används av instruktionerna och genererar förfrågningar till cachen för att ladda/avlasta dessa data.

Beställt delsystem för komplettering

Registerfil ( Register File ) - lagrar resultatet av operationer (tillståndet för IA32-registren för körbara instruktioner).
Memory Reorder Buffer - styr i vilken ordning data skrivs till minnet för att förhindra att felaktig data skrivs på grund av en förändring i ordningen för utförande av instruktioner.
Completion Unit ( Retirement Unit ) - ger resultatet av utförandet av instruktioner i den sekvens som de kom för utförande.

Minnesdelsystem L2 volym av P6-arkitekturprocessorer

Volym (KB)	Processorer
0	Celeron Covington
128	Celeron ( Mendocino , Coppermine-128 ), Pentium III ( Coppermine för Xbox [4] )
256	Pentium Pro , Pentium III (Coppermine, Tualatin-256 ), Xeon ( Cascades )
512	Pentium Pro, Pentium II , Pentium III ( Katmai , Tualatin ), Xeon ( Drake , Tanner )
1024	Pentium Pro, Xeon (Drake, Tanner)
2048	Xeon (Drake, Tanner, Cascades 2MB)

Minnesdelsystemet interagerar med huvudminnet. Detta delsystem inkluderar:

Första nivåns cache för data ( Level 1 Data Cache, L1D ) - minne med en kort åtkomsttid på 8 (för Pentium Pro ) eller 16 (för nyare processorer) kilobyte , designat för att lagra data.
Den första nivåns cache för instruktioner ( Level 1 Instruction Cache, L1I ) är ett minne med en kort åtkomsttid på 8 (Pentium Pro) eller 16 kilobyte, utformat för att lagra instruktioner.
Andra nivåns cache ( nivå 2 cache, L2 ). 128, 256, 512, 1024 eller 2048 kilobyte snabbåtkomstminne. L2-bussbredden är 64 eller 256 (för processorer baserade på Coppermine- kärnan och högre) bitar . Celeron-processorer på Covington - kärnan har ingen andra nivås cache.
Bus Interface Unit - hanterar systembussen.

Instruktionsutförande

Pentium Pro-processorpipeline

Transportören består av 12 steg [5] :

IOFE (1-4) - bestämmer adressen till instruktionen och hämtar den.
IOFE(4-6) - avkodning.
IOFE7 - registerbyte.
IOFE8 - skriv mikrooperationer till stationsreservoaren.
O2C1 - överföring av mikrooperationer från reservoarstationen till exekveringsenheterna.
O2C2 - utförande av mikrooperationer (en eller flera cykler).
IOR (1-2) - slutförande av instruktionen: skriva resultat till register.

Utförandet av en instruktion börjar med att den hämtas och avkodas. För att göra detta väljs 64 byte (två rader) från instruktionscachen för den första nivån på adressen från förgreningsförutsägelsebufferten. Av dessa är 16 byte, med början på adressen från nästa instruktionsadressberäkningsblock, inriktade och skickas till instruktionsavkodaren, som omvandlar x86-instruktioner till mikrooperationer. Om instruktionen motsvarar en mikrooperation, utförs avkodningen av en av de enkla instruktionernas avkodare. Om instruktionen motsvarar två, tre eller fyra mikrooperationer, utförs avkodningen av den komplexa instruktionsavkodaren. Om instruktionen motsvarar ett större antal mikrooperationer, så bildas de av mikrooperationssekvensschemaläggaren.

Efter att instruktionerna avkodats döps registren om , och mikrooperationer och data placeras i en buffert - en backupstation, varifrån, i enlighet med den optimala exekveringsordningen och med förbehåll för de operander som krävs för deras exekvering, de skickas till exekveringsenheterna (max 5 instruktioner per cykel). Micro-ops exekveringsstatus och dess resultat lagras i mikro-ops omordningsbufferten, och eftersom resultaten av exekveringen av vissa mikroops kan fungera som operander för andra, placeras de också i redundansstationen.

Baserat på resultaten av mikrooperationer bestäms deras beredskap för pensionering . Om de är klara, avvisas de i den ordning som tillhandahålls av programmet, under vilken tillståndet för de logiska registren uppdateras, såväl som den fördröjda lagringen av resultaten i minnet (dataregistreringsordningen styrs av minnesbufferten för omordning) [ 1] .

Arkitektoniska egenskaper

De första processorerna i P6-arkitekturen vid tidpunkten för utgivningen skilde sig markant från befintliga processorer. Pentium Pro-processorn kännetecknades av användningen av dynamisk exekveringsteknik (ändrar ordningsföljden för exekvering av instruktioner), såväl som Dual Independent Bus-arkitekturen , på grund av vilken många av minnesbandbreddsbegränsningarna som är typiska för föregångare och konkurrenter togs bort. Den första processorn i P6-arkitekturen klockades till 150 MHz , medan de senaste representanterna för denna arkitektur hade en klockhastighet på 1,4 GHz . P6-arkitekturprocessorerna hade en 36-bitars adressbuss, vilket gjorde att de kunde adressera upp till 64 GB minne (med en processs linjära adressutrymme begränsat till 4 GB, se PAE ).

Superskalär mekanism för att utföra instruktioner med att ändra deras sekvens

Den grundläggande skillnaden mellan P6-arkitekturen och dess föregångare är RISC-kärnan, som inte fungerar med x86-instruktioner, utan med enkla interna mikrooperationer. Detta tar bort många begränsningar för x86-instruktionsuppsättningen, såsom oregelbunden instruktionskodning, operander med variabel längd och register-till-minne heltalsöverföringsoperationer [1] . Dessutom exekveras mikrooperationer inte i den sekvens som tillhandahålls av programmet, utan i den optimala när det gäller prestanda, och användningen av tre-pipeline-bearbetning tillåter exekvering av flera instruktioner i en cykel [6] .

Superpiping

P6-arkitekturprocessorerna har en 12-stegs pipeline. Detta gör att högre klockhastigheter kan uppnås jämfört med processorer som har en kortare pipeline med samma tillverkningsteknik. Så till exempel är den maximala klockfrekvensen för AMD K6-processorer på kärnan (pipeline-djup - 6 steg, 180-nm-teknik) 550 MHz, och Pentium III-processorer på Coppermine-kärnan kan arbeta med en frekvens som överstiger 1000 MHz.

För att förhindra situationen att vänta på exekvering av en instruktion (och följaktligen vilotid för pipelinen), på vars resultat exekveringen eller icke-exekveringen av en villkorlig gren beror, använder P6-arkitekturprocessorerna grenprediktion . För att göra detta använder P6-arkitekturprocessorer en kombination av statisk och dynamisk prediktion: en adaptiv historisk algoritm på två nivåer ( Bimodal branch prediction ) används om grenprediktionsbufferten innehåller en grenhistorik, annars används en statisk algoritm [6] [ 7] .

Dubbel oberoende buss

För att öka bandbredden för minnesundersystemet använder P6-arkitekturprocessorerna en dubbel oberoende buss. Till skillnad från tidigare processorer, vars systembuss delades av flera enheter, har P6-arkitekturprocessorerna två separata bussar: Backside-buss som ansluter processorn till andra nivåns cache, och Frontside-buss som ansluter processorn till den norra bryggan av chipset [6 ] .

Fördelar

P6-arkitekturprocessorerna hade en pipelined matematisk coprocessor ( FPU ), som gjorde det möjligt att uppnå överlägsenhet gentemot sina föregångare och konkurrenter när det gäller hastigheten för beräkningar av reala tal [8] . FPU:n för P6-arkitekturprocessorerna förblev den bästa bland konkurrenterna fram till introduktionen av AMD Athlon-processorn 1999 [9] .

Dessutom hade processorerna i P6-arkitekturen överlägsenhet gentemot konkurrenterna i hastigheten att arbeta med den andra nivåns cache. Pentium Pro och Pentium II hade en dubbel oberoende buss, medan konkurrerande processorer ( AMD K5 , K6, Cyrix 6x86 , M-II) hade en traditionell systembuss, till vilken bland annat en andranivåcache var ansluten [10] . Med tillkomsten av Athlon-processorer, som också använder den dubbla oberoende bussarkitekturen, minskade prestandagapet, men 256-bitars BSB hos Pentium III-processorerna (som börjar med Coppermine-kärnan) gjorde det möjligt att behålla L2-cacheprestandafördelen jämfört med K7-arkitekturprocessorer, som hade 64-bitars BSB. Den då föråldrade systembussen för P6-arkitekturprocessorerna, i kombination med den stora mängden L1-cacheminne i K7-arkitekturprocessorerna, tillät dock inte att vinna fördelar i minnesbandbredd [11] .

Nackdelar

Den största nackdelen med de första P6-arkitekturprocessorerna ( Pentium Pro ) var låg prestanda när man arbetade med 16-bitars programvara som var utbredd på den tiden. Detta berodde på det faktum att när man arbetade med sådana applikationer var det svårt att utföra instruktioner i oordning (till exempel kunde Pentium Pro-processorn inte läsa från ett 32-bitars register om dess 16-bitars låga del hade varit skrivet tidigare, och kommandot som utförde skrivningen avsattes inte [12] ). I Pentium II-processorn korrigerades denna brist, vilket ledde till en ökning av prestanda vid arbete med 16-bitarsprogram med mer än en tredjedel [13] .

P6-arkitekturprocessorerna stödde drift i multiprocessorsystem, men en delad systembuss användes, vilket gjorde det möjligt att förenkla spårningen av moderkort, men påverkade prestandan för processor-minnesundersystemet negativt och begränsade det maximala antalet processorer i system [9] [14] .

P6-arkitekturprocessorer

CPU	Kärna	Produktionsteknik	Utgivningsår
Pentium Pro	P6	CMOS / BiCMOS , 500-350 nm	1995 - 1998
Pentium II	Klamath, Deschutes	CMOS, 350-250 nm	1997 - 1999
Pentium III	Katmai, Coppermine, Tualatin-256	CMOS, 250-130 nm	1999–2002 _
Pentium III-S	Tualatin	CMOS, 130 nm	2001-2002 _
Celeron	Covington, Mendocino, Coppermine-128, Tualatin-256	CMOS, 250-130 nm	1998-2002
Pentium II Xeon	Ankbonde	CMOS, 250 nm	1998-1999
Pentium III Xeon	Tanner, Cascades, Cascades 2MB	CMOS, 250-180 nm	1999-2001


Pentium Pro (P6)	Pentium II (Deschutes)	Pentium III (Coppermine)	Pentium IIIS (Tualatin)

Pentium III mobil	Celeron (Mendocino)	Celeron (Mendocino)	Celeron (Coppermine-128)

Utvecklingen av Intel-arkitekturer

Anteckningar

↑ 1 2 3 Waiting for Willamette - Historien om IA-32-arkitekturen och hur P6-familjens processorer fungerar . Hämtad 12 augusti 2008. Arkiverad från originalet 2 juli 2013. (obestämd)
↑ Pentium M: en bra "desktop" CPU ... som vi inte kommer att ha (otillgänglig länk) . IXBT.com (26 juli 2005). Datum för åtkomst: 16 augusti 2008. Arkiverad från originalet 24 augusti 2011. (obestämd)
↑ Nytt vin i gamla vinskinn. Conroe: sonson till Pentium III-processorn, brorson till NetBurst-arkitekturen? (inte tillgänglig länk) . IXBT.com (9 september 2005). Hämtad 16 augusti 2008. Arkiverad från originalet 3 januari 2014. (obestämd)
↑ Till skillnad från Celeron-processorn baserad på Coppermine-128-kärnan, som har en 4-kanals associativ L2-cache, har denna processor en 8-kanals cache. Se: "Spelkonsolernas värld. Del fem, Upgrade Magazine, 2007, nr 28 (325), s. 24
↑ Jon Stokes. The Pentium: An Architectural History of the World's Most Famous Desktop Processor (del I) (engelska) (ej tillgänglig länk) . Ars Technica (11 juli 2004). Tillträdesdatum: 19 augusti 2008. Arkiverad från originalet 28 januari 2012.
↑ 1 2 3 X86-arkitekturer är olika ... . Hämtad 11 maj 2022. Arkiverad från originalet 4 januari 2012. (obestämd)
↑ http://www.pcmag.ru/issues/sub_detail.php?ID=10105&SUB_PAGE=8 - RISC Legacy: Branch Prediction.
↑ Jämförelse av Super Socket-7 och Slot-1-baserade system . Hämtad 12 augusti 2008. Arkiverad från originalet 2 juli 2013. (obestämd)
↑ 1 2 Översikt över AMD Athlon 600 MHz-processorn . Hämtad 12 augusti 2008. Arkiverad från originalet 4 april 2013. (obestämd)
↑ PCI-buss (Peripheral Component Interconnect-buss) Arkiverad 4 april 2013 på Wayback Machine - se diagram
↑ 1000 MHz-processorer . Hämtad 12 augusti 2008. Arkiverad från originalet 23 juni 2008. (obestämd)
↑ Maxim Len: "ARCHITECTURE P6: HERITAGE OF GENERATIONS" (publicerad på webbplatsen fcenter.ru den 22 november 2000) - backuplänk ( otillgänglig länk)
↑ http://www.pcmag.ru/issues/sub_detail.php?ID=9935&SUB_PAGE=3 - Pentium: historien fortsätter.
↑ Dual-processor Socket A-system baserat på AMD 760MP-kretsuppsättningen . Hämtad 11 maj 2022. Arkiverad från originalet 23 februari 2009. (obestämd)

Länkar

Officiell information

Officiell databas över Pentium II-processorer (engelska)
Dokumentation för Pentium II-processor
Mobil Pentium II-dokumentation
Officiell Pentium III - processordatabas
Dokumentation för Pentium III-processor
Mobil Pentium III- dokumentation

Egenskaper hos P6-arkitekturprocessorer

Specifikationer för Pentium Pro -processorer
Specifikationer för Pentium II OverDrive- processorer
Specifikationer för Pentium II -processorer
Specifikationer för Pentium III -processorer

Processorrecensioner

Intel-processorer

Faktisk

64 bitar ( x86-64/EM64T )	Atom (efter 2014) Celeron Pentium Kärna i3 i5 i7 i9 xeon E3, E5, E7, D, W, X, L, E, PLATINUM, GULD, SILVER, BRONS

Produceras inte längre

bitar	4004 4040
8 bitar	8008 8080 8085
16 bitar ( x86-16 )	8086 8088 80186 80188 80286
32 bitar ( x86-32/IA-32 )	80386 80486 Pentium över drive Proffs MMX II II Overdrive III fyra M Celeron M D Kärna A100/A110 EP80579 Quark atom SoC
x87 (extern FPU )	8087 80187 80287 80387 80487
64 bitar ( x86-64/EM64T )	lite Pentium 4 Pentium D Pentium EE lite Celeron D Celeron Pentium Dual Core Kärna 2 Xeon Phi
Övrig	CISC iAPX432 EPISK Itanium RISC i860 i960 Stark arm Xscale

Listor

Efter varumärken:
atom
Celeron
Pentium
- II
- III
- M
- fyra
- D och EE
- Dual-Core och mer
Kärna
- 2
- i3
- i5
- i7
- i9
xeon
Itanium

Mikroarkitekturer och arbetsflöde

P5	800 nm: P5 600 nm: P54C 350 nm: P54CS P55C 250 nm: Tillamook
P6	500 nm: P6 350 nm: Klamath 250 nm: Mendocino Dixon Tonga Covington Deschutes Katmai Ankbonde Garvare 180 nm: Coppermine Coppermine T Kaskader 130 nm: Tualatin Banias 90 nm: Dothan Stealey 65 nm: Tolapai Yonah Sossaman
nätburst	180 nm: Willamette Främja 130 nm: Northwood Gallatin Prestonia 90 nm: Tejas och Jayhawk Prescott Smithfield Nocona Irwindale Cranford Potomac Paxville 65 nm: Cedar Mill Presler Dempsey Tulsa
Kärna	65 nm: Merom-L Merom Conroe-L Allendale conroe Kentsfield Woodcrest klöverstad tigerton 45 nm: Penryn Penryn-QC wolfdale Yorkfield Wolfdale-DP Harpertown Dunnington
Nehalem	45 nm: Clarksfield Lynnfield Jasperskogen Bloomfield Gainestown (Nehalem-EP) Beckton (Nehalem-EX) 32 nmi ( Westmere ): Arrandale Clarkdale Gulftown (Westmere-EP)
Bro	32 nm: Sandy Bridge 22 nm: Ivy Bridge
Haswell	22 nm: Haswell 14 nm: Broadwell
skylake	14 nm: Skylake Kaby sjö kaffe sjö whiskysjö komet sjö kaskad sjö Cooper sjön 10 nm: Cannon Lake
Sunny Cove	10 nm: Issjö 14 nm: Rocket Lake
Willow Cove	10 nm: Tiger Lake
gyllene vik	Intel 7 (10 nm): Alder Lake Raptor Lake Sapphire Rapids
Bonnell	45 nm: Silverthorne Diamondville Pineview Lincroft 32 nm: Saltbrunn 22 nm: Silvermont 14 nm: Airmont Goldmont
Inställt	Larrabee