Hybrid maskinöversättning

Den aktuella versionen av sidan har ännu inte granskats av erfarna bidragsgivare och kan skilja sig väsentligt från versionen som granskades den 29 mars 2021; kontroller kräver 12 redigeringar .

Hybrid maskinöversättning (HMT) är integrationen av olika metoder för maskinöversättning från möjliga MT-alternativ: [1]

Hybridarkitekturen förväntas kombinera fördelarna med dessa tillvägagångssätt. [1] Maskinöversättning idag representeras av två huvudteknologier: Statistisk maskinöversättning (SMT) och regelbaserad maskinöversättning (RBMT). [2]

Mjukvaruutvecklare Hybrid MT

Tillvägagångssätt

Layered

Denna metod för hybrid maskinöversättning innebär att flera maskinöversättningssystem körs parallellt. Det slutliga resultatet erhålls genom att kombinera resultaten från alla delsystem. De vanligaste delsystemen som används i dessa system är statistisk och regelbaserad översättning, men andra kombinationer har undersökts. Till exempel har forskare vid Carnegie Mellon University haft viss framgång genom att slå samman de exempelbaserade, överförings-, kunskaps- och statistiska översättningsundersystemen till ett enda maskinöversättningssystem.

Generering av statistiska regler

Detta tillvägagångssätt innebär att man använder statistiska data för att skapa lexikaliska och syntaktiska regler. Indata bearbetas sedan med dessa regler som om det vore en regelbaserad översättare. Detta tillvägagångssätt försöker undvika den komplexa och tidskrävande uppgiften att skapa en uppsättning omfattande, detaljerade språkliga regler genom att extrahera dessa regler från en inlärningskorpus. Detta tillvägagångssätt lider fortfarande av många av problemen med normal statistisk maskinöversättning, nämligen att översättningens noggrannhet kommer att bero mycket på likheten mellan inmatningstexten och utbildningskorpusen. Som ett resultat har denna metod haft störst framgång i domänspecifika tillämpningar och har samma domänskräddarsydda svårigheter som många statistiska maskinöversättningssystem.

Multipass

Detta tillvägagångssätt involverar sekventiell behandling av inmatningen flera gånger. Den vanligaste tekniken som används i flerpassage maskinöversättningssystem är indataförbehandling med ett regelbaserat maskinöversättningssystem. Utdata från den regelbaserade förprocessorn skickas till ett statistiskt maskinöversättningssystem, som producerar det slutliga resultatet. Denna teknik används för att begränsa mängden information som det statistiska systemet behöver ta hänsyn till, vilket kraftigt minskar den beräkningskraft som krävs. Det eliminerar också behovet av att ett regelbaserat system ska vara ett komplett översättningssystem för ett språk, vilket kraftigt minskar mängden mänsklig ansträngning och arbete som krävs för att bygga systemet.

Baserat på säkerhet

Detta tillvägagångssätt skiljer sig från andra hybridmetoder genom att i de flesta fall endast en översättningsteknik används. För varje översatt mening genereras ett konfidenspoäng, utifrån vilket du kan bestämma om du ska prova en sekundär översättningsteknik eller fortsätta arbeta med originalöversättningen. Omniscien Technologies är ett företag som använder detta tillvägagångssätt, där NMT är huvudtekniken men faller tillbaka till SMT om konfidenspoängen är under en tröskel eller om meningslängden är mycket kort (t.ex. 1 eller 2 ord). SMT används också när vanliga felmönster som flera upprepade ord förekommer i följd, vilket ofta är fallet med NMT när uppmärksamhetsmekanismen är förvirrad.

Hybridteknik "SMT och RBMT"

Hybrid översättningsteknologi innebär användning av statistiska metoder för att automatiskt bygga ordförrådsdatabaser baserade på parallella korpus, generera flera möjliga översättningar både på lexikal nivå och på nivån för målspråkssatsens syntaktiska struktur, tillämpa efterredigering i automatiskt läge och välja den bästa (mest troliga) översättningen av det möjliga utifrån en språkmodell byggd på en specifik korpus av målspråket. [2]

Hybrid (SMT + RBMT) System skiljer sig: (klausul 2.4.3 [4] )

  • Regelbaserad MT med ett statistiskt tillvägagångssätt efter bearbetning.
  • Statistisk MT med regelbaserad förbearbetning.
  • Full integration av RBMT och SMT. [3]

Statistisk MT strävar efter att använda språklig data, medan system med ett "klassiskt" regelbaserat tillvägagångssätt tillämpar statistiska metoder. [2] Tillägget av några "övergripande" regler, det vill säga skapandet av hybridsystem, är något[ hur mycket? ] förbättrar kvaliteten på översättningar, särskilt när mängden indata som används vid konstruktionen av indexfiler för lagring av språklig information för en maskinöversättare baserad på N-gram är otillräcklig. [tio]

Kombinera RBMT och statistisk maskinöversättning:

  • Språklig analys av ingångssatsen;
  • Generering av översättningsvarianter;
  • Användning av statistisk teknik;
  • Utvärdering och val av det bästa översättningsalternativet med hjälp av språkmodellen. [11] [12] [13]

Stadier av hybrid SMT- och RBMT-teknik: [2]

  • RBMT-utbildning baserad på en parallell korpus med hjälp av statistisk teknik;
  • Drift baserad på ett utbildat system.

Arkitektur av hybridtekniken "SMT och RBMT"

I hybridmaskinöversättning kompletteras RBMT-systemet med två komponenter [14] : en statistisk efterredigeringsmodul och en språkmodellmodul. Statistisk efterredigering låter dig smidig RB-översättning, föra den närmare naturligt språk, samtidigt som den bibehåller en tydlig struktur för den syntetiserade texten. Språkmodeller används för att utvärdera smidigheten och den grammatiska korrektheten hos översättningarna som genereras av hybridsystemet.

Typisk HMT-arkitektur: [14]

  • Parallellt hus;
  • Utbildning;
  • språkmodell;
  • Data för efterredigering;
  • Syntesregler;
  • Ordlista med terminologi.
  • Utnyttjande:
    •  - Hybrid översättning.

Hur HMT fungerar

Kombinationen av till synes inkompatibla översättningsmetoder, nämligen den klassiska maskinöversättningstekniken regelbaserad maskinöversättning (regelbaserad MT) och statistisk maskinöversättning (statistisk MT) kan implementeras i en hybridöversättningsteknik . [15] Kardinalskillnaden med den nya lösningen är att istället för ett översättningsalternativ genererar programmet många översättningar, vars antal i en mening, beroende på oklarheten i ord, konstruktioner och resultaten av statistisk bearbetning, kan nå flera hundra. Vidare låter den probabilistiska modellen för språket dig välja det mest sannolika av de föreslagna alternativen.

Typisk HMT-algoritm: [2]

  • Skapa en terminologisk ordbok från parallella texter för RBMT automatiskt.
  • Generering av alla möjliga översättningar baserat på:
    •  - lexikaliska varianter;
    •  — Alternativ för syntes av olika mönster.
    •  - tillämpa efterredigering.
  • Att välja det bästa alternativet genom den implementerade språkmodellen.

Fördelar och nackdelar

Vad ger hybridöversättningsteknik?

  • Snabb automatisk konfiguration baserad på kundens översättningsminnen;
  • Terminologisk noggrannhet av översättningen, såväl som stilens enhet;
  • Skaffa ytterligare användbar data - en tvåspråkig terminologisk ordbok.
Fördelar och nackdelar med regelbaserad maskinöversättning

Fördelar med RBMT: [16]

Lagrad:

  •  — Syntaktisk och morfologisk noggrannhet.
  •  - stabilitet och förutsägbarhet av resultatet;
  •  - förmågan att anpassa ämnesområdet.

RBMT Nackdelar:

  •  — Utvecklingens komplexitet och varaktighet.
  •  — Behovet av att underhålla och uppdatera språkliga databaser.
  •  - "maskinaccent" vid översättning.

Nackdelarna utjämnas genom användning av parallella korpus och statistiska metoder.

  •  – automatisk justering av språkliga databaser (snabb och högkvalitativ extraktion av terminologi),
  •  — "maskin"-accenten försvinner under översättning (syntesalternativ och efterredigering).
Fördelar och nackdelar med statistiska översättningssystem

Fördelar med SMT: [17]

  •  - snabb installation;
  •  — lätt att lägga till nya översättningsriktningar;
  •  - Översättningens smidighet.

Nackdelar med SMT:

  •  - "Brist" av parallella byggnader;
  •  - många grammatiska fel;
  •  — Översättningsinstabilitet.

Se även

Anteckningar

  1. 1 2 Arkiverad kopia (länk ej tillgänglig) . Hämtad 27 mars 2013. Arkiverad från originalet 13 mars 2016. 
  2. 1 2 3 4 5 6 Hybrid översättningsteknologi - Y. Epifantseva, LLC <PROMT>, konferens "Russian Internet Technologies", 2011 . Arkiverad från originalet den 8 april 2013.
  3. 12 Begäran avvisad . Datum för åtkomst: 29 mars 2013. Arkiverad från originalet 4 mars 2016.
  4. 1 2 http://nlp.amrita.edu:8080/project/mhrd/ms/Final_Thesis.pdf  (nedlänk)
  5. Arkiverad kopia (länk ej tillgänglig) . Datum för åtkomst: 29 mars 2013. Arkiverad från originalet 4 mars 2016. 
  6. SYSTRANS maskinöversättningsteknik . Hämtad 1 april 2013. Arkiverad från originalet 8 april 2013.
  7. SYSTRAN Hybrid Technology . Hämtad 1 april 2013. Arkiverad från originalet 8 april 2013.
  8. http://web.iti.upv.es/~fcn/Students/ta/Talk-ToniL-PRACT_ISSUES-13_4p.pdf  (länk ej tillgänglig)
  9. Arkiverad kopia . Hämtad 29 mars 2013. Arkiverad från originalet 12 maj 2015.
  10. Arkiverad kopia (länk ej tillgänglig) . Hämtad 17 april 2013. Arkiverad från originalet 19 april 2014. 
  11. Arkiverad kopia . Hämtad 1 april 2013. Arkiverad från originalet 4 mars 2016.
  12. Arkiverad kopia . Hämtad 1 april 2013. Arkiverad från originalet 5 mars 2016.
  13. Om automatisk approximation av riktiga språk - gratis nedladdningsabstrakt om ämnet Diskret matematik och matematisk kybernetik. Beställ leverans av en avhandling om matematik ... . Hämtad 4 april 2013. Arkiverad från originalet 8 april 2013.
  14. 1 2 Varför hybridöversättningsteknologi behövs - A. Molchanov, PROMT LLC, AINL-konferensen, 2013 . Arkiverad från originalet den 8 april 2013.
  15. PROMT-företag - översättare och ordböcker för att översätta text från engelska, ryska, tyska, franska, spanska, portugisiska och italienska (otillgänglig länk) . Hämtad 23 mars 2013. Arkiverad från originalet 8 april 2013. 
  16. Arkiverad kopia (länk ej tillgänglig) . Hämtad 27 mars 2013. Arkiverad från originalet 9 november 2012. 
  17. Varför hybridöversättningsteknologi behövs - A. Molchanov, OOO <PROMT>, konferens "AINL", 2013 . Arkiverad från originalet den 8 april 2013.