Karaktärsuppsättning

Den aktuella versionen av sidan har ännu inte granskats av erfarna bidragsgivare och kan skilja sig väsentligt från versionen som granskades den 15 maj 2017; kontroller kräver 17 redigeringar .

Teckenuppsättning ( engelsk teckenuppsättning ) - en tabell som anger kodningen av en ändlig uppsättning alfabetiska tecken (vanligtvis textelement: bokstäver, siffror, skiljetecken). En sådan tabell matchar varje tecken med en sekvens av ett eller flera tecken i ett annat alfabet (prickar och streck i morsekod , signalflaggor i marinen , nollor och ettor ( bitar ) i datorn).

Dator teckenuppsättning

Tecken i en dator är vanligtvis kodade i en eller flera byte (grupper om åtta bitar).

Även om termen "teckenuppsättning" ( eng. teckenuppsättning, teckenuppsättning ), legitimerad av internetstandarden RFC 2278 , nu kanske är den mest auktoritativa termen, används fortfarande termen "kodning" som föregick den ( eng. kodning ) som en synonym, i synnerhet, i programmeringsspråken Java [1] , Perl [2] och XSLT [3] , såväl som i HTML [4] .

Ofta, istället för termen "teckenuppsättning", används termen " teckentabell " felaktigt, vilket egentligen betyder ett specialfall av en teckenuppsättning med en enbytekodning.

Tre typer av kodningar används för närvarande: ASCII -kompatibel, EBCDIC -kompatibel och Unicode - baserad 16-bitarskodning, med de förra övervägande dominerande. UTF -8- representationen av Unicode är kompatibel med ASCII. EBCDIC -baserade kodningar (som DCOI ) används bara på vissa stordatorer . Till en början använde varje operativsystem en teckenuppsättning. Nu är de teckenuppsättningar som används standardiserade [5] , beror på typen av operativsystem endast av tradition och är inställda enligt lokalen .

Wikipedia och andra Wikimedia Foundation - projekt använder UTF-8 Unicode.

Moderna 8-bitars datorplattformar kännetecknas av små mängder RAM och ROM; multibyte-kodningar i sådana produkter har inte fått någon betydande distribution. Anledningen till detta är inte bara den större volymen som upptas av textdata som presenteras i en multibyte-kodning, utan också bristen på "extra" minne för att lagra en grafisk representation av ytterligare tecken, såväl som svårigheten att bearbeta sådana strängar. Följande standardenkelbyte-kodningar används vanligtvis idag:

I program på engelska - CP437 ;
I program på ryska används följande alternativ:
- CP866 - används oftare av mer erfarna ingenjörer som började arbeta i DOS; låter dig rita pseudografiska "ramar", men kräver att du lagrar källkoden för programvaran i denna specifika teckentabell, vilket kan vara svårt för nybörjare;
- CP1251 - används om det är nödvändigt att ha ryska tecken i en kontinuerlig array för enkel bearbetning, och om Windows är tillgängligt kan sådan text omkodas utan att använda programvara från tredje part. Men det tillåter dig inte att rita "ramar".

Automatisk kodningsigenkänning

Många moderna textredigerare och webbläsare har en automatisk kodningsigenkänningsfunktion, men den ger inte alltid rätt resultat. Ibland händer det att text som skrivits, till exempel på kommandoraden eller i vissa program, avkodas felaktigt, och istället för vanliga ord erhålls en uppsättning obegripliga tecken. Ett stort antal textavkodare som fungerar online kan hjälpa dig att klara av att läsa sådan text.

För enkelbyte-kodningar måste man ta hänsyn till det faktum att användningsfrekvensen för olika bokstäver varierar mycket (till exempel på ryska används ofta "o", men "ъ" används sällan). Därför kan du, genom att känna till textens språk, enkelt välja en kodning där frekvensen av byte bättre matchar frekvensen av bokstäver på ett givet språk. [6]

En alternativ synvinkel anser att sådana heuristiska algoritmer för att bestämma textkodningen är skadliga, eftersom modern informationsteknik har möjlighet att entydigt matcha texten med dess teckentabell (se till exempel MIME ). Den utbredda användningen av heuristiska analysatorer uppmuntrar användningen av lågkvalitetsprogram för att skapa textdata som bryter mot standarder.

Vanliga kodningar

ISO 646
- ASCII
BCDIC
EBCDIC
ISO 8859 :
- ISO 8859-1 , ISO 8859-2 , ISO 8859-3 , ISO 8859-4 , ISO 8859-5 , ISO 8859-6 , ISO 8859-7 , ISO 8859-8 , ISO 8859-9 , ISO 8859 ISO 8859-11 , ISO 8859-13 , ISO 8859-14 , ISO 8859-15
- CP437 , CP737 , CP850 , CP852 , CP855 , CP857 , CP858 , CP860 , CP861 , CP863 , CP865 , CP866 , CP869
Microsoft Windows -kodningar :
- Windows-1250 för centraleuropeiska språk som använder latinska tecken (polska, tjeckiska, slovakiska, ungerska, slovenska, kroatiska, rumänska och albanska)
- Windows-1251 för kyrilliska alfabet
- Windows-1252 för västerländska språk
- Windows-1253 för grekiska
- Windows-1254 för turkiska
- Windows-1255 för hebreiska
- Windows-1256 för arabiska
- Windows-1257 för baltiska språk
- Windows-1258 för vietnamesiska
MacRoman , MacCyrillic
KOI8 (KOI8-R, KOI8-U…), KOI-7
Bulgarisk kodning
ISC II
VISCII
Big5 (den mest kända varianten av Microsoft CP950 )
- HKSCS
Guobiao
- GB2312
- GBK (Microsoft CP936 )
- GB18030
Shift JIS för japanska (Microsoft CP932 )
EUC-KR för koreanska (Microsoft CP949 )
ISO-2022 och EUC för kinesiskt manus
UTF - 8- , UTF-16- och UTF-32- kodningarna i Unicode - teckenuppsättningen

Se även

Länkar

Unicode-teckenkoder på unicode.org

Anteckningar

↑ Lista över stora "kodningar" i Java SE 6-manualen . Datum för åtkomst: 27 september 2008. Arkiverad från originalet den 16 december 2008. (obestämd)
↑ Diskussion om "kodningar" i Perl-språkdokumentationen . Hämtad 27 september 2008. Arkiverad från originalet 6 oktober 2008. (obestämd)
↑ Diskussion om "kodningar" i XSLT-dokumentationen . Hämtad 5 oktober 2008. Arkiverad från originalet 13 augusti 2017. (obestämd)
↑ Diskussion om förhållandet mellan termerna "kodning" och "teckenuppsättning" i HTML-dokumentationen . Hämtad 11 oktober 2008. Arkiverad från originalet 26 oktober 2008. (obestämd)
↑ Teckenuppsättningsspecifikationer på IANA-webbplatsen . Hämtad 27 september 2008. Arkiverad från originalet 16 juli 2004. (obestämd)
↑ Universalavkodare - Kyrillisk omvandlare . Datum för åtkomst: 4 december 2014. Arkiverad från originalet 28 december 2014. (obestämd)

Teckenkodningar
alfabet text fil data teckenuppsättning omvandling
Historiska kodningar	ytterligare komp. semafor (Makarov) morse Bodo MTK-2 komp. 6-bitars SCP RADIX-50 EBCDIC DKOI KOI-7 ISO 646
modern 8-bitars representation	symboler ASCII chefer tryckt icke-ASCII pseudografi 8-bitars kodsidor Kyrillisk KOI-8 Grundläggande kodning MacCyrillic ISO 8859 1 (lat.) 2 3 fyra 5 (kir.) 6 7 åtta 9 tio elva 12 13 fjorton 15 (€) 16 Windows 1250 1251 (Kir.) 1252 1253 1254 1255 1256 1257 1258 WGL4 IBM & DOS 437 850 852 855 866 "alternativ" MIC
Multibyte	traditionell DBCS GB2312 HTML unicode UTF-32 UTF-16 UTF-8 teckenlista Kyrillisk
användargränssnitt tangentbordslayout plats linjeöversättning font translitterering anpassade typsnitt verktyg iconv spela in

Typgjuteri och typdesign

Begrepp

Teckensnittsstruktur

Teckensnittsegenskaper

Öppning
Aprosh
kerning
Tillväxt med små bokstäver
Kapitaltillväxt
teckensnittstillväxt
teckensnittspunkt
Kägla
- Lista
Proportioner
Mättnad

Klassificering av alfabetiska teckensnitt

gammal	Mayuscule Mycket liten Karolinska minuskul Uncial Ö stil Gaeliskt skrift
Gotiska	neogotisk skrift Rotunda Textur Fraktur Schwabacher
slaviskt	Alm Glagolitisk Civic typsnitt Semi-charter Kursiv Charter
Modern	Antiqua Grotesk Monospace / Proportionell Kvadrat handskriven visa bulgariska

Teckensnittsstilar

Enheter

datortypografi _

se även förlag Tryckeri Typografi Utrustning Layout Utskrift