Kodsida

Den aktuella versionen av sidan har ännu inte granskats av erfarna bidragsgivare och kan skilja sig väsentligt från versionen som granskades den 19 september 2019; kontroller kräver 7 redigeringar .

Code page ( engelsk  code page ) - en tabell som matchar varje bytevärde med ett visst tecken (eller dess frånvaro). Vanligtvis är en teckenkod 8 bitar stor , så en teckentabell kan innehålla högst 256 tecken, vilket innebär att varje 8-bitars teckentabell är allvarligt otillräcklig för att representera flerspråkig text. Dessutom används vissa tecken som kontrolltecken , varför antalet utskrivna tecken sällan överstiger 223 [1] .

Historiskt sett introducerades termen teckentabell av IBM Corporation ; utbytbara teckentabeller användes för att stödja olika språk (med alfabetiska skrivsystem). På senare tid har det förekommit förvirring mellan termen "kodtabell" och den mer allmänna uppfattningen om en teckenuppsättning (kodning).

Kodsidor idag

För närvarande används huvudsakligen två typer av kodningar: ASCII -kompatibla och EBCDIC -kompatibla [2] , med den förra övervägande dominerande. I ASCII-kompatibla kodningar är koder för 95 utskrivbara tecken och 33 kontrolltecken fasta, och de återstående 128 kodpunkterna används för olika icke-ASCII-tecken.

För att koda texter på ryska (det vill säga kyrilliska bokstäver ) används följande teckentabeller mest:

Att använda olika teckentabeller skapar en hel del besvär för både användare och programmerare. När du försöker läsa en textfil med en teckentabell som är inkompatibel med den där den skapades, finns det buggar . På senare år har Unicode blivit utbredd som ett alternativ till traditionella teckentabeller.

På ett Microsoft Windows-system

På Microsoft Windows-system är teckentabeller en viktig komponent i lokalisering , som anges i HKEY_LOCAL_MACHINE\SYSTEM\CurrentControlSet\Control\Nls\CodePage\ [3] registernycklar .

Historiskt sett (i Windows 3.x- och Windows 9x-system ) fanns det två typer av teckentabeller. ANSI-teckentabeller [4] (eng. ANSI-teckentabell , i registret: ACP ), även kallade Windows [5]  är inbyggda Windows-teckentabeller. De innehåller många typografiska tecken , men nästan ingen pseudografi på grund av att de är avsedda att användas i en grafisk miljö. Microsoft erkände senare att användningen av ANSI- namnet berodde på ett missförstånd. [6] "ANSI"/Windows-kodningar inkluderar i synnerhet Windows-1252 och ovannämnda Windows-1251 . Microsoft hänvisar också till teckentabeller som kodtabeller, av vilka vissa positioner kräver en andra (terminal) byte för att bilda ett tecken, det vill säga de som tillåter en två-byte representation av vissa tecken [7] , även om de strängt taget är redan teckenkodningar med variabel längd.

OEM-kodningarna (eng. OEM-kodsida , i registret: OEMCP ) är baserade på CP437 och innehåller VGA -kompatibel pseudografik . Ovanstående alternativa kodning är känd som CP866 på Windows .

Från och med Windows NT dök en tredje klass av teckentabeller upp: Macintosh-kodningar (engelska Macintosh-kodtabellen , i registret: MACCP ), kompatibla med MacOS .

Anteckningar

  1. Ett av få undantag är VISCII- kodningen för vietnamesiskt latin, som är kompatibel med ASCII minus de sex koderna i kontrollteckenzonen ersatta av bokstäver, se RFC 1456 . Den innehåller alltså 229 utskrivbara tecken.
  2. EBCDIC -baserade kodningar (t.ex. DCOI ) används bara på vissa stordatorer .
  3. REG: CurrentControlSet, DEL 1 Arkiverad 10 januari 2013 på Wayback Machine , Microsoft 
  4. Kodsidor i Visual C++ Arkiverade 22 februari 2014 på Wayback Machine , MSDN
  5. Kodsidor arkiverade 22 februari 2014 på Wayback Machine , MSDN
  6. MSDN: Ordlista med villkor (länk ej tillgänglig) . Hämtad 2 mars 2010. Arkiverad från originalet 28 mars 2016. 
  7. Windows-kodsidor Arkiverade 2 maj 2014 på Wayback Machine , MSDN