Hybrid maskinöversättning (HMT) är integrationen av olika metoder för maskinöversättning från möjliga MT-alternativ: [1]
Hybridarkitekturen förväntas kombinera fördelarna med dessa tillvägagångssätt. [1] Maskinöversättning idag representeras av två huvudteknologier: Statistisk maskinöversättning (SMT) och regelbaserad maskinöversättning (RBMT). [2]
Denna metod för hybrid maskinöversättning innebär att flera maskinöversättningssystem körs parallellt. Det slutliga resultatet erhålls genom att kombinera resultaten från alla delsystem. De vanligaste delsystemen som används i dessa system är statistisk och regelbaserad översättning, men andra kombinationer har undersökts. Till exempel har forskare vid Carnegie Mellon University haft viss framgång genom att slå samman de exempelbaserade, överförings-, kunskaps- och statistiska översättningsundersystemen till ett enda maskinöversättningssystem.
Generering av statistiska reglerDetta tillvägagångssätt innebär att man använder statistiska data för att skapa lexikaliska och syntaktiska regler. Indata bearbetas sedan med dessa regler som om det vore en regelbaserad översättare. Detta tillvägagångssätt försöker undvika den komplexa och tidskrävande uppgiften att skapa en uppsättning omfattande, detaljerade språkliga regler genom att extrahera dessa regler från en inlärningskorpus. Detta tillvägagångssätt lider fortfarande av många av problemen med normal statistisk maskinöversättning, nämligen att översättningens noggrannhet kommer att bero mycket på likheten mellan inmatningstexten och utbildningskorpusen. Som ett resultat har denna metod haft störst framgång i domänspecifika tillämpningar och har samma domänskräddarsydda svårigheter som många statistiska maskinöversättningssystem.
MultipassDetta tillvägagångssätt involverar sekventiell behandling av inmatningen flera gånger. Den vanligaste tekniken som används i flerpassage maskinöversättningssystem är indataförbehandling med ett regelbaserat maskinöversättningssystem. Utdata från den regelbaserade förprocessorn skickas till ett statistiskt maskinöversättningssystem, som producerar det slutliga resultatet. Denna teknik används för att begränsa mängden information som det statistiska systemet behöver ta hänsyn till, vilket kraftigt minskar den beräkningskraft som krävs. Det eliminerar också behovet av att ett regelbaserat system ska vara ett komplett översättningssystem för ett språk, vilket kraftigt minskar mängden mänsklig ansträngning och arbete som krävs för att bygga systemet.
Baserat på säkerhetDetta tillvägagångssätt skiljer sig från andra hybridmetoder genom att i de flesta fall endast en översättningsteknik används. För varje översatt mening genereras ett konfidenspoäng, utifrån vilket du kan bestämma om du ska prova en sekundär översättningsteknik eller fortsätta arbeta med originalöversättningen. Omniscien Technologies är ett företag som använder detta tillvägagångssätt, där NMT är huvudtekniken men faller tillbaka till SMT om konfidenspoängen är under en tröskel eller om meningslängden är mycket kort (t.ex. 1 eller 2 ord). SMT används också när vanliga felmönster som flera upprepade ord förekommer i följd, vilket ofta är fallet med NMT när uppmärksamhetsmekanismen är förvirrad.
Hybrid översättningsteknologi innebär användning av statistiska metoder för att automatiskt bygga ordförrådsdatabaser baserade på parallella korpus, generera flera möjliga översättningar både på lexikal nivå och på nivån för målspråkssatsens syntaktiska struktur, tillämpa efterredigering i automatiskt läge och välja den bästa (mest troliga) översättningen av det möjliga utifrån en språkmodell byggd på en specifik korpus av målspråket. [2]
Hybrid (SMT + RBMT) System skiljer sig: (klausul 2.4.3 [4] )
Statistisk MT strävar efter att använda språklig data, medan system med ett "klassiskt" regelbaserat tillvägagångssätt tillämpar statistiska metoder. [2] Tillägget av några "övergripande" regler, det vill säga skapandet av hybridsystem, är något[ hur mycket? ] förbättrar kvaliteten på översättningar, särskilt när mängden indata som används vid konstruktionen av indexfiler för lagring av språklig information för en maskinöversättare baserad på N-gram är otillräcklig. [tio]
Kombinera RBMT och statistisk maskinöversättning:
Stadier av hybrid SMT- och RBMT-teknik: [2]
I hybridmaskinöversättning kompletteras RBMT-systemet med två komponenter [14] : en statistisk efterredigeringsmodul och en språkmodellmodul. Statistisk efterredigering låter dig smidig RB-översättning, föra den närmare naturligt språk, samtidigt som den bibehåller en tydlig struktur för den syntetiserade texten. Språkmodeller används för att utvärdera smidigheten och den grammatiska korrektheten hos översättningarna som genereras av hybridsystemet.
Typisk HMT-arkitektur: [14]
Kombinationen av till synes inkompatibla översättningsmetoder, nämligen den klassiska maskinöversättningstekniken regelbaserad maskinöversättning (regelbaserad MT) och statistisk maskinöversättning (statistisk MT) kan implementeras i en hybridöversättningsteknik . [15] Kardinalskillnaden med den nya lösningen är att istället för ett översättningsalternativ genererar programmet många översättningar, vars antal i en mening, beroende på oklarheten i ord, konstruktioner och resultaten av statistisk bearbetning, kan nå flera hundra. Vidare låter den probabilistiska modellen för språket dig välja det mest sannolika av de föreslagna alternativen.
Typisk HMT-algoritm: [2]
Vad ger hybridöversättningsteknik?
Fördelar med RBMT: [16]
Lagrad:
RBMT Nackdelar:
Nackdelarna utjämnas genom användning av parallella korpus och statistiska metoder.
Fördelar med SMT: [17]
Nackdelar med SMT:
maskinöversättning | Tillvägagångssätt för|
---|---|
|
naturlig språkbehandling | |
---|---|
Allmänna definitioner | |
Textanalys |
|
Refererar |
|
Maskinöversätta |
|
Identifiering och datainsamling | |
Tematisk modell | |
Peer review |
|
Naturligt språkgränssnitt |