Karaktärsuppsättning

Den aktuella versionen av sidan har ännu inte granskats av erfarna bidragsgivare och kan skilja sig väsentligt från versionen som granskades den 15 maj 2017; kontroller kräver 17 redigeringar .

Teckenuppsättning ( engelsk  teckenuppsättning ) - en tabell som anger kodningen av en ändlig uppsättning alfabetiska tecken (vanligtvis textelement: bokstäver, siffror, skiljetecken). En sådan tabell matchar varje tecken med en sekvens av ett eller flera tecken i ett annat alfabet (prickar och streck i morsekod , signalflaggor i marinen , nollor och ettor ( bitar ) i datorn).

Dator teckenuppsättning

Tecken i en dator är vanligtvis kodade i en eller flera byte (grupper om åtta bitar).

Även om termen "teckenuppsättning" ( eng.  teckenuppsättning, teckenuppsättning ), legitimerad av internetstandarden RFC 2278 , nu kanske är den mest auktoritativa termen, används fortfarande termen "kodning" som föregick den ( eng.  kodning ) som en synonym, i synnerhet, i programmeringsspråken Java [1] , Perl [2] och XSLT [3] , såväl som i HTML [4] .

Ofta, istället för termen "teckenuppsättning", används termen " teckentabell " felaktigt, vilket egentligen betyder ett specialfall av en teckenuppsättning med en enbytekodning.

Tre typer av kodningar används för närvarande: ASCII -kompatibel, EBCDIC -kompatibel och Unicode - baserad 16-bitarskodning, med de förra övervägande dominerande. UTF -8- representationen av Unicode är kompatibel med ASCII. EBCDIC -baserade kodningar (som DCOI ) används bara på vissa stordatorer . Till en början använde varje operativsystem en teckenuppsättning. Nu är de teckenuppsättningar som används standardiserade [5] , beror på typen av operativsystem endast av tradition och är inställda enligt lokalen .

Wikipedia och andra Wikimedia Foundation - projekt använder UTF-8 Unicode.

Moderna 8-bitars datorplattformar kännetecknas av små mängder RAM och ROM; multibyte-kodningar i sådana produkter har inte fått någon betydande distribution. Anledningen till detta är inte bara den större volymen som upptas av textdata som presenteras i en multibyte-kodning, utan också bristen på "extra" minne för att lagra en grafisk representation av ytterligare tecken, såväl som svårigheten att bearbeta sådana strängar. Följande standardenkelbyte-kodningar används vanligtvis idag:

Automatisk kodningsigenkänning

Många moderna textredigerare och webbläsare har en automatisk kodningsigenkänningsfunktion, men den ger inte alltid rätt resultat. Ibland händer det att text som skrivits, till exempel på kommandoraden eller i vissa program, avkodas felaktigt, och istället för vanliga ord erhålls en uppsättning obegripliga tecken. Ett stort antal textavkodare som fungerar online kan hjälpa dig att klara av att läsa sådan text.

För enkelbyte-kodningar måste man ta hänsyn till det faktum att användningsfrekvensen för olika bokstäver varierar mycket (till exempel på ryska används ofta "o", men "ъ" används sällan). Därför kan du, genom att känna till textens språk, enkelt välja en kodning där frekvensen av byte bättre matchar frekvensen av bokstäver på ett givet språk. [6]

En alternativ synvinkel anser att sådana heuristiska algoritmer för att bestämma textkodningen är skadliga, eftersom modern informationsteknik har möjlighet att entydigt matcha texten med dess teckentabell (se till exempel MIME ). Den utbredda användningen av heuristiska analysatorer uppmuntrar användningen av lågkvalitetsprogram för att skapa textdata som bryter mot standarder.

Vanliga kodningar

Se även

Länkar

Anteckningar

  1. Lista över stora "kodningar" i Java SE 6-manualen . Datum för åtkomst: 27 september 2008. Arkiverad från originalet den 16 december 2008.
  2. Diskussion om "kodningar" i Perl-språkdokumentationen . Hämtad 27 september 2008. Arkiverad från originalet 6 oktober 2008.
  3. Diskussion om "kodningar" i XSLT-dokumentationen . Hämtad 5 oktober 2008. Arkiverad från originalet 13 augusti 2017.
  4. Diskussion om förhållandet mellan termerna "kodning" och "teckenuppsättning" i HTML-dokumentationen . Hämtad 11 oktober 2008. Arkiverad från originalet 26 oktober 2008.
  5. Teckenuppsättningsspecifikationer på IANA-webbplatsen . Hämtad 27 september 2008. Arkiverad från originalet 16 juli 2004.
  6. Universalavkodare - Kyrillisk omvandlare . Datum för åtkomst: 4 december 2014. Arkiverad från originalet 28 december 2014.