IEEE 754-2008

Den aktuella versionen av sidan har ännu inte granskats av erfarna bidragsgivare och kan skilja sig väsentligt från versionen som granskades den 24 augusti 2019; kontroller kräver 22 redigeringar .

IEEE 754 ( IEC 60559) är en allmänt använd IEEE -standard som beskriver ett format för att representera flyttal . Det används i mjukvara ( kompilatorer av olika programmeringsspråk ) och hårdvara ( CPU och FPU ) implementeringar av aritmetiska operationer (matematiska operationer).

Standarden beskriver:

flyttaltalsformat : mantissa , exponent (exponent), taltecken ;
representation av positiva och negativa noll , positiv och negativ oändlighet , såväl som icke -nummer ( engelska Not-a-Number, NaN );
metoder som används för att konvertera ett tal när man utför matematiska operationer;
undantag: division med noll , overflow , underflow , arbete med denormaliserade tal och andra;
operationer: aritmetik och andra.

2008 års standard ersätter IEEE 754-1985 . Den nya standarden inkluderar binära format från den tidigare standarden och tre nya format. Enligt gällande standard ska en implementering stödja minst ett av grundformaten, samt aritmetiskt format och utbytesformat.

Lista över standarder:

IEEE 754-1985;
IEEE 754-2008.

Utveckling av standarden

Den nuvarande versionen av IEEE 754-2008 publicerades 2008. Den kompletterar och ersätter den tidigare versionen av IEEE 754-1985 , skriven av Dan Zuras och redigerad av Mike Coulishaw..

Den internationella standarden ISO/IEC/IEEE 60559:2011 (med identisk IEEE 754-2008) har godkänts och publicerats för JTC1 /SC 25 under ISO/IEEE PSDO-avtalet.

De binära formaten i den ursprungliga standarden ingår i den nya standarden tillsammans med tre nya basformat (ett binärt och två decimaler). För att överensstämma med den nuvarande standarden måste en implementering implementera minst ett av de grundläggande formaten.

Från och med september 2015 revideras standarden för att inkludera förtydliganden.

Format

IEEE 754-formatet är "en uppsättning representationer av numeriska värden och tecken". Formatet kan också innehålla en kodningsmetod.

Formatet inkluderar:

Tal som kan betraktas i binär eller decimal notation. Ett reellt tal representeras av tre heltal , och , där är tecknet (0 för positivt och 1 för negativt), är mantissan (koefficient), är exponenten . För givna heltal , och värdet av motsvarande reella tal är: , där är basen (2 eller 10). Till exempel definierar ett tal med bas , teckenbit (talet är negativt), mantissa och exponent ett tal . $s$ $c$ $q$ $s$ $c$ $q$ $s$ $c$ $q$ ${\displaystyle (-1)^{s}\cdot c\cdot b^{q))$ $b$ $tio$ $ett$ $12345$ $-3$ $(-1)^{1}\cdot 12345\cdot 10^{-3}=-12.345$

Positiv noll och negativ nolla . $+0$ $-0$
Två oändligheter: och . $+\infty$ $-\infty$
Två typer av NaN : tyst NaN (qNaN) och signalerande NaN (sNaN). NaN kan bära en nyttolast avsedd för diagnostisk information som indikerar källan som orsakade NaN. Tecknet för NaN har ingen betydelse, men kan vara förutsägbart i vissa fall.

De möjliga slutvärdena som kan representeras i formatet bestäms av basen , antalet tecken i mantissan (med precision ) och det maximala värdet : $b$ $sid$ ${\displaystyle E_{\max ))$

$c$ måste vara ett heltal i intervallet noll till (om och sedan c kan vara från till ) $b^{p}-1$ $b=10$ $p=7$ $0$ $9999999$
$q$ måste vara ett heltal så att (om och , då kan vara från till ). ${\displaystyle 1-E_{\max }\leq q+p-1\leq E_{\max ))$ $p=7$ $E_{\max }=96$ $q$ $-101$ $90$

Därför (för det föregående exemplet) är det minsta positiva talet som inte är noll som kan representeras , och det största är ( ), liksom hela intervallet av tal från till . Siffrorna och ( och ) är de minsta (i absoluta värden) normala talen; icke-nolltal mellan dessa minsta tal kallas subnormala . $1\cdot 10^{-101}$ $9999999\cdot 10^{90}$ ${\displaystyle 9.999999\cdot 10^{96))$ ${\displaystyle -9.999999\cdot 10^{-96))$ ${\displaystyle 9.999999\cdot 10^{-96))$ $-b^{E_{\max ))$ $b^{E_{\max ))$ $-1\cdot 10^{-95}$ $1\cdot 10^{95}$

Representation och kodning i minnet

Vissa nummer kan ha flera representationer i det format som de just beskrevs i. Till exempel, om och , då kan numret representeras som: , eller . $b=10$ $p=7$ $-12.345$ ${\displaystyle -12345\cdot 10^{-3))$ ${\displaystyle -123450\cdot 10^{-4))$ ${\displaystyle -1234500\cdot 10^{-5))$

För decimalformat är alla representationer giltiga, och samlingen av dessa representationer kallas kohorter . När ett resultat kan ha flera representationer avgör standarden vilken som väljs av en medlem i kohorten.

För binära format görs representationen unik genom att välja den minsta representerbara exponenten. För tal med en exponent i normalområdet (inte alla eller alla nollor) kommer den inledande biten i mantissan alltid att vara 1. Därför kan den inledande 1-biten antydas snarare än lagras explicit i minnet. Denna regel kallas den ledande bitkonventionen eller dolda bitkonventionen. Regeln tillåter dig att spara 1 bit minne för att få ytterligare en bit av precision. Den inledande biten i konventionen används inte för subnormala tal; deras hastighet ligger utanför det normala intervallet för värden.

Grundläggande och utbytbara format

Standarden definierar fem grundläggande format, som är namngivna efter deras talbas och antalet bitar som används i deras kodning. Det finns tre grundläggande binära flyttalsformat (kodade med 32, 64 eller 128 bitar) och två decimala flyttalsformat (kodade med 64 eller 128 bitar). Formaten binary32 och binary64 är IEEE 754-1985 enkla och binära format. En överensstämmande implementering måste fullt ut implementera minst ett av de grundläggande formaten.

Standarden definierar också utbytesformat som generaliserar dessa grundläggande format. Binära sådana kräver en överenskommelse med de ledande bitarna. Tabellen listar de minsta utbytesformaten (inklusive grundläggande).

namn	Hela titeln	Bas	Antal binära siffror i mantissan	Antal decimaler	Exponent (bit)	Decimal Emax	Exponentiell offset [1]	Emin	Emax	Anteckningar
binär16	halv precision	2	elva	3,31	5	4,51	2 4 −1 = 15	−14	+15	Inte mainstream
binär32	enda precision	2	24	7.22	åtta	38,23	2 7 −1 = 127	−126	+127
binär64	Dubbel precision	2	53	15,95	elva	307,95	2 10 −1 = 1023	−1022	+1023
binär128	Fyrdubbel noggrannhet	2	113	34.02	femton	4931,77	2 14 −1 = 16383	−16382	+16383
binär256	8x noggrannhet	2	237	71,34	19	78913.2	2 18 −1 = 262143	−262142	+262143	Inte mainstream
decimal32		tio	7	7	7,58	96	101	−95	+96	Inte mainstream
decimal 64		tio	16	16	9,58	384	398	−383	+384
decimal128		tio	34	34	13.58	6144	6176	−6143	+6144

Observera att i tabellen ovan är minimivärdena för vanliga siffror. Den speciella representationen av subnormala tal gör det möjligt att representera ännu mindre tal (med viss förlust av precision). Till exempel är det minsta dubbla precisionstalet större än noll som kan representeras i denna form 2 − 1074 (eftersom 1074 = 1022 + 53 − 1).

Decimalvärdet är värdet × log 10 bas , vilket ger den ungefärliga precisionen i decimal.

Decimal E max är emax × log 10 bas, detta ger maximal effekt i decimal.

Som nämnts tidigare är formaten binary32 och binary64 identiska med IEEE 754-1985-formaten och är de två vanligaste formaten som används idag. Figuren till höger visar den absoluta precisionen för formaten binary32 och binary64, från 10 −12 till 10 12 . En sådan indikator kan användas för att välja lämpligt format, givet det förväntade värdet av numret och den nödvändiga precisionen.

Utökade och utbyggbara precisionsformat

Standarden definierar även utökade och utdragbara precisionsformat som rekommenderas för större precision än basformaten. Det utökade precisionsformatet utökar grundformatet med högre precision och ett bredare exponentomfång. Det avancerade precisionsformatet tillåter användaren att specificera en rad precision och exponent. En implementering kan använda vilken intern representation den väljer för sådana format. Allt som behöver specificeras är parametrarna b, p och emax. Dessa parametrar beskriver unikt uppsättningen av finita tal (kombinationer av tecken och exponent för en given bas) som den kan representera.

Standarden kräver ingen implementering för att stödja utökade eller utökningsbara exakta format.

Standarden rekommenderar att språk tillhandahåller en metod för att specificera värdena för p och emax för varje stödd bas b.

Standarden rekommenderar att språk och implementeringar stöder ett utökat format som har högre precision än det största basformatet som stöds för varje bas b.

För ett utökat format med precision mellan två basformat måste exponentomfånget vara lika stort som det för nästa bredare basformat. Så till exempel måste ett 64-bitars utökat precision binärt tal ha ett emax- värde på minst 16383.

Exchange format

Utbytesformaten är utformade för att utbyta flyttalsdata med hjälp av en bitsträng med fast längd.

För utbyte av binära flyttal, definieras utbytesformat med längden 16 bitar, 32 bitar, 64 bitar och valfri multipel av 32 bitar ≥128. 16-bitarsformatet är avsett för utbyte eller lagring av små nummer (till exempel för grafik eller neurala nätverksberäkningar).

Kodningsschemat för dessa binära utbytesformat är detsamma som för IEEE 754-1985: en teckenbit följt av index som beskriver exponentoffset och p-1 bitar som beskriver värdet. Exponentfältets bredd för k-bitsformatet beräknas som w = round(4 log 2 ( k ))−13. De befintliga 64- och 128-bitarsformaten följer denna regel, men 16- och 32-bitarsformaten har fler effektbitar (5 respektive 8 bitar) än vad denna formel ger (3 respektive 7 bitar).

Precis som med IEEE 754-1985 finns det viss flexibilitet i NaN-kodning.

För utbyte av decimaltal med flyttal definieras utbytesformat för valfri multipel av 32 bitar.

Avrundningsregler

Standarden definierar fem avrundningsregler. De två första reglerna avrundar till närmaste värde, de andra kallas riktningsrundor.

Avrundning till närmaste

Avrundning till närmaste (bindning "till jämnt"). Om de två närmaste flyttalstalen är lika nära, ska talet med den jämna lägsta siffran erhållas. Detta är standard för binär flyttal och rekommenderad standard för decimal.
Avrundning till närmaste ("till oändlighet" bindning). Om de två närmaste flyttalstalen är lika nära, bör ett tal med en större modul erhållas.

Riktningsavrundning

Runda-till-0 – riktad avrundning till noll (även känd som trunkering).
Runda till +∞ - Riktningsavrundning till positiv oändlighet (även känd som avrundning uppåt eller tak).
Runda till - ∞ - riktningsavrundning till negativ oändlighet (även känd som runda nedåt eller golv).

Exempel på avrundning till heltal

Läge / Exempel	+11,5	+12,5	−11.5	−12,5
till närmaste (bindande till jämnt)	+12,0	+12,0	−12,0	−12,0
till närmaste (snäpp till oändlighet)	+12,0	+13,0	−12,0	−13,0
till 0	+11,0	+12,0	−11,0	−12,0
till + ∞	+12,0	+13,0	−11,0	−12,0
till - ∞	+11,0	+12,0	−12,0	−13,0

Nödvändiga operationer

Nödvändiga operationer för ett aritmetiskt format som stöds (inklusive basformat) inkluderar:

Aritmetiska operationer (addition, subtraktion, multiplikation, division, kvadratrot, sammanslagning av multipla multiplikationer, resterande)
Konverteringar (mellan format, strängar, etc.)
Skalning och kvantisering (för decimal)
Kopiera och manipulera tecken (negation, etc.)
Jämförelse och allmän ordning
Klassificering och testning (för NaN, etc.)
Testa och installera flaggor
Övriga operationer

Allmänt predikat

Standarden tillhandahåller ett totalOrder-predikat som definierar den totala ordningen för alla flyttal för varje format. Predikatet överensstämmer med de vanliga jämförelseoperationerna. Normala jämförelseoperationer behandlar emellertid NaNs som oordnade och jämför -0 och +0 som lika. TotalOrder-predikatet kommer att ordna dessa fall och även skilja mellan olika representationer av NaN för samma flyttal som kodats på olika sätt.

Se även

Halvt precisionsnummer
Enkelt precisionsnummer
Dubbla precisionsnummer
Fyrdubbelt nummer
bfloat16-format(alternativt 16-bitars format, låg precision, men lätt att konvertera från enstaka precisionsnummer)
intervall aritmetik

Anteckningar

↑ Cowlishaw, Mike Decimala aritmetiska kodningar . IBM. Hämtad 6 augusti 2015. Arkiverad från originalet 8 februari 2016. (obestämd)

Länkar

754-2019 - IEEE-standard för flytande-punktsaritmetik. Revision av IEEE Std 754-2008 // ieeexplore.ieee.org, ISBN: 2019 978-1-5044-5924-2, doi:10.1109/IEEEESTD.2019.8766229 (betald)
754-2008 - IEEE-standard för flytpunktsräkning. Revision av ANSI/IEEE Std 754-1985 // ieeexplore.ieee.org, 2008 ISBN 978-0-7381-5752-8 , doi:10.1109/IEEEESTD.2008.4610935 (betald)
Yashkardin V. L. IEEE 754 - en standard för binär flyttalsaritmetik . SoftElectro (2009). (obestämd)
IEEE 754-omvandlare
IEEE754 online binär till decimalomvandlare

IEEE- standarder

Nuvarande

488
CAMAC
- 575
- 583
- 595
- 596
- 675
- 683
- 726
- 758
696
754
854
Multibuss
- 796
- 1296
Program
- 730
- 828
- 829
- 1012
- 1016
- 1058
- 1063
framtida buss
- 896
- 1156
- 1194
- 1301
960
1003
1014
1076
1101
1149,1
1155
1164
1196
1275
1278
1284
1355
1394
1451
1471
1497
1516
1541-2002
1547
1584
1588
1596
1603
1613
1666
1667
1675
1685
1722
1733
1788
1800
1801
1815
1850
1900.4
1901
1902
1904.1
1905
2030
2050
11073
12207
14764
16085
16326
29148
42010

Serie 802

802.1	D sid F Qat Qay w X ab annons AE ag ah ak aq SOM yxa az BA
802,3	-1983 a b d e i j u x y z ab ac annons ae af ah ak en aq på av az ba bt förbi
802.11	läge a b c d e f g h i j k n sid r s u v w y ac annons af ah ai yxa ja vara

.2
.fyra
.5
.6
.7
.åtta
.9
.tio
.12
.fjorton
.femton
- .ett
- .fyra
- .4a
- .6
- .7
.16
- Original d e
.17
.arton
.tjugo
.21
.22

P-serien

P959

P1363

P1619

P1699

P1823

P1906.1

Ersatt

754-1985
830
1219
1233
1362
1364
1471

Kategori:IEEE-standarder