SSSE3

Supplemental Streaming SIMD Extension 3 ( SSSE3 ) är beteckningen som Intel ger till den fjärde instruktionsuppsättningen. Den tidigare var SSE3 , och Intel lade till ett annat 'S' istället för att öka anknytningsnumret, kanske för att de ansåg att SSSE3 var ett enkelt tillägg till SSE3. Ofta, innan den officiella beteckningen SSSE3 användes, kallades dessa nya kommandon SSE4. De fick också kodnamnet Tejas New Instructions (TNI) och Merom New Instructions (MNI) efter de processorer där Intel först tänkte stödja dessa nya instruktioner. Introducerad i Intel Core Microarchitecture, SSSE3 är tillgänglig i Xeon -processorserien5100 (server- och arbetsstationsversioner), samt i Intel Core 2 (notebook- och stationära versioner) och Intel Atom-processorer.

Nytt i SSSE3, jämfört med SSE3, är 16 unika paketerade heltalsinstruktioner. Var och en av dem kan fungera med både 64-bitars (MMX) och 128-bitars (XMM) register, så Intel hänvisar till 32 nya kommandon i sitt material.

Nya instruktioner

Arbeta med tecknet

PABSB , PABSW , PABSD - (Packat Absolute Value {Bytes/Words/DWords})
- Ingång - { A0, A1 ... }
- Utdata - { A0 * tecken(A0), A1 * tecken(A1)... }

Varje resultatfält är det absoluta värdet för motsvarande fält från src1. I själva verket är det samma operationer PSIGNB, PSIGNH, PSIGNW, som båda har samma register.

PSIGNB , PSIGNW , PSIGND - (Packed Sign {Bytes/Words/DWords})
- Ingång — { A0, A1… }, { B0, B1… }
- Utdata - { A0 * tecken(B0), A1 * tecken(B1)... }

Varje resultatfält är produkten av fältet i src1 gånger {-1,0,1} beroende på tecknet för motsvarande fält i src2 (multiplicera med 0 när fältet i src2 är noll).

Skifter

PALIGNR - (Packed Align Right)
- Ingång - { A0, A1 }, { B0, B1 }, imm8
- Utdata - { B1_B0_A1_A0 >> (imm8 * 8) }

De två registren i operanden behandlas som ett osignerat mellanvärde av dubbelt så stort, från vilket 64-/128-bitarsvärdet extraheras med början från den byte som anges i kommandots direkta konstanta argument.

Byte blandning

PSHUFB - (Packed Shuffle Bytes)
- Ingång — { A 0 , A 1 , A 2 ,.. A 7 /A 15 }, { B 0 , B 1 , B 2 , .. B 7 /B 15 }
- Utdata - { [A B0 A B1 A B2 ...] }

Bytepermutation, varje resultatbyte är någon byte från det första argumentet, bestämt av motsvarande byte från det andra argumentet (om byten är negativ skrivs noll in i resultatbyten, annars används de låga 3 eller 4 bitarna som bytenummer i det första argumentet).

Multiplikationer

PMULHRSW - (packad multiplicera högt med runda och skala)
- Ingång — { A0, A1… }, { B0, B1… }
- Utdata - { A0 * B0, A1 * B1 ... }

Argument A och B behandlas som vektorer av 16-bitars förtecknade fastpunktstal representerade i intervallet [-1,+1) (dvs. 0x4000 är 0,5 och 0xa000 är -0,75, etc.) som multipliceras med varandra med korrekta avrundning.

PMADDUBSW - (multiplicera och lägg till packade signerade och osignerade bytes)
- Ingång - { A0, A1, A2, A3,.. }, { B0, B1, B2, B3,.. }
- Utgång - { (A0*B0+A1*B1), (A2*B2+A3*B3), … }

En byte-för-byte multiplikation av vektorerna A och B utförs, mellanliggande 16-bitars resultat adderas i par med mättnad och ges som ett resultat.

Horisontella heltal tillägg/subtraktioner

PHSUBW , PHSUBD - (packad horisontell subtraktion (16- eller 32-bitarsfält))
- Ingång - { A0, A1, A2, A3 }, { B0, B1, B2, B3 }
- Utgång - { A0-A1 A2-A3 ... B0-B1 B2-B3 ... }

Horisontell subtraktion av heltals 16/32-bitars fält.

PHSUBSW - (packade horisontella subtrahera och mätta ord (16-bitars fält))
- Ingång - { A0, A1, A2, A3 }, { B0, B1, B2, B3 }
- Utgång - { A0-A1 A2-A3 B0-B1 B2-B3 }

Horisontell subtraktion av heltals 16-bitars fält med mättnad.

PHADDW , PHADDD - (Packad horisontell lägg till (16-bitars eller 32-bitars fält))
- Ingång - { A0, A1, A2, A3 }, { B0, B1, B2, B3 }
- Utgång - { A0 + A1 A2 + A3 ... B0 + B1 B2 + B3 ... }

Horisontell addition av heltals 16/32-bitarsfält.

PHADDSW - (packade horisontella lägg till och mätta ord (16-bitarsfält))
- Ingång - { A0, A1, A2, A3 }, { B0, B1, B2, B3 }
- Utgång - { A0 + A1 A2 + A3 ... B0 + B1 B2 + B3 ... }

Horisontell addition av heltals 16-bitars fält med mättnad.

Processorer som stöder SSSE3

Intel :
- Xeon 5100-serien
- Xeon 5300-serien
- Xeon 3000-serien
- Xeon E3
- Xeon E5
- Xeon E7
- Core2 Duo
- Core 2 Quad
- Core 2 Extreme
- Core i3
- Core i5
- Core i7
- Pentium Dual Core
- Celeron (Celeron 4xx, Conroe-L kärna)
- Celeron Dual Core
- Celeron M 500-serien
- Intel Atom
AMD :
- Bobcat (E-240, E-350, C-30, C-50)
- Bulldozer
- Zen
VIA :
- Nano

Litteratur

Specifikation för Core 2 Mobile

Intel Paper erkänner existensen av SSSE3 och beskriver SSE4

Beskrivning av kommandosystemet där SSSE3 instruktioner skrivs

Intel 64 and IA-32 Architectures Software Developer's Manual Volym 2B (inte tillgänglig länk)

x86-processorinstruktionsuppsättningar
Intel	MMX SSE SSE2 SSE3 SSSE3 SSE4 ( SSE4.1 SSE4.2 ATA ) AES AVX FMA Intel MPX
AMD	3DNu! SSE4a SSE5 AVX FMA AES xop
Cyrix	MMXEXT