Teckenuppsättning ( engelsk teckenuppsättning ) - en tabell som anger kodningen av en ändlig uppsättning alfabetiska tecken (vanligtvis textelement: bokstäver, siffror, skiljetecken). En sådan tabell matchar varje tecken med en sekvens av ett eller flera tecken i ett annat alfabet (prickar och streck i morsekod , signalflaggor i marinen , nollor och ettor ( bitar ) i datorn).
Tecken i en dator är vanligtvis kodade i en eller flera byte (grupper om åtta bitar).
Även om termen "teckenuppsättning" ( eng. teckenuppsättning, teckenuppsättning ), legitimerad av internetstandarden RFC 2278 , nu kanske är den mest auktoritativa termen, används fortfarande termen "kodning" som föregick den ( eng. kodning ) som en synonym, i synnerhet, i programmeringsspråken Java [1] , Perl [2] och XSLT [3] , såväl som i HTML [4] .
Ofta, istället för termen "teckenuppsättning", används termen " teckentabell " felaktigt, vilket egentligen betyder ett specialfall av en teckenuppsättning med en enbytekodning.
Tre typer av kodningar används för närvarande: ASCII -kompatibel, EBCDIC -kompatibel och Unicode - baserad 16-bitarskodning, med de förra övervägande dominerande. UTF -8- representationen av Unicode är kompatibel med ASCII. EBCDIC -baserade kodningar (som DCOI ) används bara på vissa stordatorer . Till en början använde varje operativsystem en teckenuppsättning. Nu är de teckenuppsättningar som används standardiserade [5] , beror på typen av operativsystem endast av tradition och är inställda enligt lokalen .
Wikipedia och andra Wikimedia Foundation - projekt använder UTF-8 Unicode.
Moderna 8-bitars datorplattformar kännetecknas av små mängder RAM och ROM; multibyte-kodningar i sådana produkter har inte fått någon betydande distribution. Anledningen till detta är inte bara den större volymen som upptas av textdata som presenteras i en multibyte-kodning, utan också bristen på "extra" minne för att lagra en grafisk representation av ytterligare tecken, såväl som svårigheten att bearbeta sådana strängar. Följande standardenkelbyte-kodningar används vanligtvis idag:
Många moderna textredigerare och webbläsare har en automatisk kodningsigenkänningsfunktion, men den ger inte alltid rätt resultat. Ibland händer det att text som skrivits, till exempel på kommandoraden eller i vissa program, avkodas felaktigt, och istället för vanliga ord erhålls en uppsättning obegripliga tecken. Ett stort antal textavkodare som fungerar online kan hjälpa dig att klara av att läsa sådan text.
För enkelbyte-kodningar måste man ta hänsyn till det faktum att användningsfrekvensen för olika bokstäver varierar mycket (till exempel på ryska används ofta "o", men "ъ" används sällan). Därför kan du, genom att känna till textens språk, enkelt välja en kodning där frekvensen av byte bättre matchar frekvensen av bokstäver på ett givet språk. [6]
En alternativ synvinkel anser att sådana heuristiska algoritmer för att bestämma textkodningen är skadliga, eftersom modern informationsteknik har möjlighet att entydigt matcha texten med dess teckentabell (se till exempel MIME ). Den utbredda användningen av heuristiska analysatorer uppmuntrar användningen av lågkvalitetsprogram för att skapa textdata som bryter mot standarder.
Teckenkodningar | |
---|---|
Historiska kodningar | ytterligare komp. semafor (Makarov) morse Bodo MTK-2 komp. 6-bitars SCP RADIX-50 EBCDIC KOI-7 ISO 646 |
modern 8-bitars representation | symboler ASCII icke-ASCII 8-bitars kodsidor Kyrillisk KOI-8 Grundläggande kodning MacCyrillic ISO 8859 1 (lat.) 2 3 fyra 5 (kir.) 6 7 åtta 9 tio elva 12 13 fjorton 15 (€) 16 Windows 1250 1251 (Kir.) 1252 1253 1254 1255 1256 1257 1258 WGL4 IBM & DOS 437 850 852 855 866 "alternativ" MIC |
Multibyte | traditionell DBCS GB2312 HTML unicode UTF-32 UTF-16 UTF-8 teckenlista Kyrillisk |
användargränssnitt tangentbordslayout plats linjeöversättning font translitterering anpassade typsnitt verktyg iconv spela in |
Typgjuteri och typdesign | |||||||||
---|---|---|---|---|---|---|---|---|---|
Begrepp | |||||||||
Teckensnittsstruktur |
| ||||||||
Teckensnittsegenskaper | |||||||||
Klassificering av alfabetiska teckensnitt |
| ||||||||
Teckensnittsstilar | |||||||||
Enheter | |||||||||
datortypografi _ | |||||||||
se även förlag Tryckeri Typografi Utrustning Layout Utskrift |