Textfil

Den aktuella versionen av sidan har ännu inte granskats av erfarna bidragsgivare och kan skilja sig väsentligt från versionen som granskades den 28 maj 2022; kontroller kräver 5 redigeringar .
Textfil
MIME-typ text/vanlig
Motsatt binär fil och grafikfil
Filtillägg .txteller.text
 Mediafiler på Wikimedia Commons

En textfil  är en datorfil som innehåller textdata . Textfiler är motsatsen till binära (binära) filer , som innehåller data som inte är utformade för att tolkas som text (till exempel filer som lagrar text i en kodad eller komprimerad form, eller som inte lagrar text, utan ljud, bild eller annat data).

Till skillnad från termen "textdata" (textdataformat), som kännetecknar innehållet i data, syftar termen "textfil" på en fil och karaktäriserar den som en behållare som lagrar sådan data.

Beskrivning

En textfil innehåller en sekvens av tecken (mest utskrivna tecken som tillhör en eller annan teckenuppsättning ). Dessa tecken är vanligtvis grupperade i rader ( engelska  linjer, rader ). I moderna system separeras linjer av linjeavskiljare , medan tidigare strängar lagrades som poster med konstant eller variabel längd (se: Hålkort ). Ibland är slutet på en textfil (speciellt om filsystemet inte lagrar information om filstorleken) också markerat med ett eller flera specialtecken som kallas för filslutsmarkörer .

Fördelar och nackdelar

Fördelar:

Brister:

Format baserade på textfiler

På grund av sin enkelhet används textfiler ofta för att lagra tjänstinformation (till exempel loggar ): eftersom operationen att lägga till ny data i slutet av en textfil inte kräver några betydande beräkningsresurser, oavsett filstorleken som redan är tillgänglig och typen av textdata som läggs till, sköts underhåll av textloggfiler vanligtvis effektivt och omärkligt för användaren och för andra applikationer (upp till att diskutrymmet tar slut).

Textformatet fungerar som grund för många mer specialiserade format (t.ex. .ini , SGML , HTML , XML , TeX , källkod för programmeringsspråket ). I vissa av dessa format kan vissa kombinationer av tecken användas som textuppmärkningar. I det här fallet kan filen lagra formaterad text, där teckensnitt, stil, storlek, etc. kan specificeras för tecken (till exempel Rich Text Format , HTML ).

Filnamnstillägg

DOS , macOS och Windows använder vanliga textfiler vanligtvis filtillägget .txt . Däremot kan textfiler vara med eller utan något annat tillägg. Till exempel lagras programkällkoder vanligtvis i filer med tillägg som motsvarar det programmeringsspråk som programmen är skrivna på ( .java , .bas , .pas , .c ).

Formaterad text (text med uppmärkning) lagras vanligtvis i filer med en filändelse som motsvarar formatet eller uppmärkningsspråket  - .rtf , .htm , .html .

Kodningar

8-bitars text

Historiskt har 7 -bitars ASCII - teckenuppsättningen , såväl som 8-bitars EBCDIC och olika ASCII-tillägg, använts för att koda textfiler . I 8-bitars teckentabeller är det vanligt att använda tecken som motsvarar ASCII i den första halvan av kodtabellen.

Fördelen med 8-bitars textrepresentation är programmatisk enkelhet och oberoende av problem med byteordning eller maskinordslängd . Nackdelen är ett stort antal olika standarder, vilket kan leda till inkompatibilitet.

Unicode i textfiler

Användningen av Unicode i textfiler, även om det i princip löser "kodningsproblemet" och standardiserar användningen av kontrolltecken, skapar sina egna problem. I de flesta moderna system är den odelbara informationsenheten i en dataström en byte (8 bitar) , som kräver flera för att koda ett tecken från Unicode. Lösningen är att använda inkompatibla UTF-8- system och två versioner av UTF-16 (UTF-16LE och UTF-16BE med motsatt endian ). Ibland läggs ett speciellt markörtecken (U+FEFF [1] ) till i början av filen, vilket gör det möjligt att känna igen formatet entydigt. UTF-8 har fördelen att vara bakåtkompatibel med ASCII, men programmatisk textbehandling i UTF-8 kompliceras av den variabla teckenstorleken. Dessutom är Unicode-texter ännu mer redundanta än 8-bitars.

Kontrolltecken

Olika operativsystem har sitt eget sätt att representera nya rader och filslut. I UNIX består en radmatning av ett enda LF-tecken (kod 0xA), på Mac OS (men inte macOS ) består den av ett CR-tecken (kod 0xD), och i DOS och Windows kodas en radmatning som en sekvens av två tecken: CR och LF.

Denna diskrepans dikteras av skrivmaskinernas funktionsprinciper: för att flytta till en ny linje måste du återföra vagnen till början av raden ( vagnretur ), och sedan vrida trumman en rad ( linjematning ). Vid utskrift på en skrivare kan det ena och det andra tecknet skilja sig åt (till exempel för att välja en rad genom att skriva ut den två gånger, eller för att rulla trumman flera rader), men detta är inte nödvändigt i textfiler.

Förutom de namngivna finns det i textfiler sådana tecken som tabulering (kod 9) och sidflöde (kod 0xC). Den sistnämnda användes av gamla textredigerare som LEXICON , såväl som i filer avsedda för utskrift på en skrivare.

Anteckningar

  1. Unicode-standarden, del 2. . Hämtad 11 augusti 2008. Arkiverad från originalet 22 april 2021.