Bitext

Den aktuella versionen av sidan har ännu inte granskats av erfarna bidragsgivare och kan skilja sig väsentligt från versionen som granskades den 5 juni 2020; verifiering kräver 1 redigering .

Parallelltext ( bitext ) är en text på ett språk tillsammans med dess översättning till ett annat språk. "Parallell textjustering" är identifieringen av matchande meningar i båda halvorna av den parallella texten. Stora samlingar av parallella texter kallas "parallell corpus" (eng. parallella corpora ). Parallell korpusanpassning på meningsnivå är en nödvändig förutsättning för olika aspekter av språkforskningen . Under översättningsprocessen kan meningar delas, slås samman, raderas, infogas eller ordnas om. Som ett resultat blir anpassningen ofta en svår uppgift.

Bitext

Inom området översättningsforskning är en "bitext" ett kombinerat dokument som består av käll- och målspråksversioner av motsvarande text. Bitexter skapas med hjälp av speciella datorprogram som kallas "justeringsverktyg" ( justeringsverktyg ) eller "bitextverktyg" ( bitextverktyg ), som gör att du automatiskt kan anpassa originalversionen av texten och dess översättning. Sådana program matchar i regel två texter (original och översättning) för varje mening. Samlingen av bitexter kallas "bitextdatabas" eller "tvåspråkig korpus" och kan användas som referens och för att hitta rätt kombinationer.

Historik

Idén med bitext tillhör Brian Harris, som först skrev en studie om detta koncept 1988, och som därefter utvecklades av en grupp forskare vid University of Montreal (Université de Montréal), kallad RALI ( Recherche appliquée en linguistique informatique ) eller Applied Research in Computational Linguistics - "Applied Research in Computational Linguistics"). Gruppen bestod av programmerare och lingvister som studerade naturlig textbehandling. Anmärkningsvärda främjare av Bitext-konceptet är Pierre Isabelle och Claude Bédard.

Bitexter och översättningsminne

Idén om "bitext" har mycket gemensamt med begreppet översättningsminne . Huvudskillnaden mellan de två är att översättningsminnet är en databas där textsegment (motsvarande meningar) är ordnade på ett sådant sätt att de inte är relaterade till det ursprungliga sammanhanget, det vill säga den ursprungliga sekvensen av meningar går förlorad. Bitext behåller den ursprungliga sekvensen av meningar. Standardformatet för utbyte av översättningsminnesdatabaser mellan olika automatiserade översättningssystem är TMX-formatet (en XML-ordbok publicerad av LISA (Localization Industries Association). TMX tillåter att den ursprungliga ordningen av meningar bevaras.

Bitexter skapas som ett referensverktyg för konsultationer av specialistöversättare, inte automatiserade program. Därför spelar små inriktningsfel eller felaktigheter som kan leda till översättningsminnesfel ingen roll för dem.

Se även

Anteckningar

Litteratur

Länkar

Parallella korpora på Internet

Program för justering av parallella texter

Dokumentation