Parallelltext ( bitext ) är en text på ett språk tillsammans med dess översättning till ett annat språk. "Parallell textjustering" är identifieringen av matchande meningar i båda halvorna av den parallella texten. Stora samlingar av parallella texter kallas "parallell corpus" (eng. parallella corpora ). Parallell korpusanpassning på meningsnivå är en nödvändig förutsättning för olika aspekter av språkforskningen . Under översättningsprocessen kan meningar delas, slås samman, raderas, infogas eller ordnas om. Som ett resultat blir anpassningen ofta en svår uppgift.
Inom området översättningsforskning är en "bitext" ett kombinerat dokument som består av käll- och målspråksversioner av motsvarande text. Bitexter skapas med hjälp av speciella datorprogram som kallas "justeringsverktyg" ( justeringsverktyg ) eller "bitextverktyg" ( bitextverktyg ), som gör att du automatiskt kan anpassa originalversionen av texten och dess översättning. Sådana program matchar i regel två texter (original och översättning) för varje mening. Samlingen av bitexter kallas "bitextdatabas" eller "tvåspråkig korpus" och kan användas som referens och för att hitta rätt kombinationer.
Idén med bitext tillhör Brian Harris, som först skrev en studie om detta koncept 1988, och som därefter utvecklades av en grupp forskare vid University of Montreal (Université de Montréal), kallad RALI ( Recherche appliquée en linguistique informatique ) eller Applied Research in Computational Linguistics - "Applied Research in Computational Linguistics"). Gruppen bestod av programmerare och lingvister som studerade naturlig textbehandling. Anmärkningsvärda främjare av Bitext-konceptet är Pierre Isabelle och Claude Bédard.
Idén om "bitext" har mycket gemensamt med begreppet översättningsminne . Huvudskillnaden mellan de två är att översättningsminnet är en databas där textsegment (motsvarande meningar) är ordnade på ett sådant sätt att de inte är relaterade till det ursprungliga sammanhanget, det vill säga den ursprungliga sekvensen av meningar går förlorad. Bitext behåller den ursprungliga sekvensen av meningar. Standardformatet för utbyte av översättningsminnesdatabaser mellan olika automatiserade översättningssystem är TMX-formatet (en XML-ordbok publicerad av LISA (Localization Industries Association). TMX tillåter att den ursprungliga ordningen av meningar bevaras.
Bitexter skapas som ett referensverktyg för konsultationer av specialistöversättare, inte automatiserade program. Därför spelar små inriktningsfel eller felaktigheter som kan leda till översättningsminnesfel ingen roll för dem.