Maskinöversätta

Den aktuella versionen av sidan har ännu inte granskats av erfarna bidragsgivare och kan skilja sig väsentligt från versionen som granskades den 21 oktober 2021; kontroller kräver 5 redigeringar .

Maskinöversättning  är processen att översätta texter (skrivna och helst muntliga) från ett naturligt språk till ett annat med hjälp av ett speciellt datorprogram . Riktningen av vetenskaplig forskning relaterad till konstruktionen av sådana system kallas också.

Former för organisation av interaktion mellan datorer och människor i maskinöversättning

Automatiserad översättning

Istället för "maskin" används ibland ordet automatisk , vilket inte påverkar innebörden. Termen automatiserad översättning har dock en helt annan innebörd - med det hjälper programmet helt enkelt en person att översätta texter.

Automatisk översättning involverar följande former av interaktion:

I engelsk terminologi särskiljs också termerna för engelska.  maskinöversättning, MT (helautomatisk översättning) och engelska.  maskinstödd eller eng.  maskinassisterad översättning (MAT) (automatiserad); om det är nödvändigt att ange båda skriver de M(A)T.

Det finns flera fundamentalt olika tillvägagångssätt för konstruktionen av maskinöversättningsalgoritmer: regelbaserad , statistisk eller statistisk, neural maskinöversättning (NMT). Den första metoden är traditionell och används av de flesta utvecklare av maskinöversättningssystem (PROMT i Ryssland, SYSTRAN i Frankrike, Linguatec i Tyskland, etc.) [1] Den andra typen inkluderar den populära tjänsten Yandex.Translate , Google Translate , samt som en ny tjänst från ABBYY [ 2] . Nu är de flesta system hybrid - kombinerar regler, statistik och neurala nätverk.

Statistisk maskinöversättning

Statistisk maskinöversättning  är en typ av maskinöversättning av text baserad på jämförelse av stora volymer språkpar. Språkpar - texter som innehåller meningar på ett språk och motsvarande meningar i det andra, kan antingen vara varianter av att skriva två meningar av en person som har två språk som modersmål, eller en uppsättning meningar och deras översättningar gjorda av en person. Således har statistisk maskinöversättning egenskapen att "självlära". Ju fler språkpar som finns tillgängliga och ju bättre de matchar varandra, desto bättre blir resultatet av statistisk maskinöversättning. Begreppet "statistisk maskinöversättning" hänvisar till ett allmänt tillvägagångssätt för att lösa problemet med översättning, som bygger på att hitta den mest sannolika översättningen av en mening med hjälp av data som erhållits från en tvåspråkig textmassa. Ett exempel på en tvåspråkig textsamling är riksdagsbetänkandena, som är protokoll från debatter i riksdagen. Tvåspråkiga parlamentariska register publiceras i Kanada, Hong Kong och andra länder; Europeiska ekonomiska gemenskapens officiella dokument publiceras på elva språk; a FN publicerar dokument på flera språk. Som det visar sig är dessa material ovärderliga resurser för statistisk maskinöversättning.

Maskinöversättningens historia

Idén att använda datorer för översättning uttrycktes 1947 i USA , omedelbart efter att de första datorerna kom. Den första offentliga demonstrationen av maskinöversättning (det så kallade Georgetown-experimentet ) ägde rum 1954 . Trots det primitiva systemet (en ordbok med 250 ord, en grammatik med 6 regler, översättning av flera enkla fraser), fick detta experiment ett brett svar: forskning började i England , Bulgarien , Östtyskland , Italien , Kina , Frankrike , Tyskland , Japan och andra länder; samma 1954 i Sovjetunionen .

I mitten av 1960- talet fanns två system för rysk-engelsk översättning för praktisk användning i USA:

Den ALPAC -kommission som inrättades för att utvärdera sådana system kom dock till slutsatsen att denna verksamhet är olönsam i USA på grund av den låga kvaliteten på maskinöversatta texter. Även om kommissionen rekommenderade att fortsätta och fördjupa den teoretiska utvecklingen, ledde dess slutsatser i allmänhet till en ökning av pessimism , en minskning av finansieringen och ofta till ett fullständigt upphörande av arbetet med detta ämne.

Ändå fortsatte forskningen i ett antal länder, med hjälp av de ständiga framstegen inom datorteknik. En särskilt betydelsefull faktor var uppkomsten av mini- och persondatorer , och med dem mer och mer komplexa ordbok-, sök- , etc.-system fokuserade på att arbeta med naturliga språkdata. Behovet av översättning som sådant växte också på grund av tillväxten av internationella relationer. Allt detta ledde till en ny uppgång inom detta område, som kom från mitten av 1970-talet . På 1980-talet kom tiden för den utbredda praktiska användningen av översättningssystem, och en marknad för kommersiell utveckling inom detta ämne uppstod.

Men de drömmar med vilka mänskligheten tog upp uppgiften att maskinöversätta för ett halvt sekel sedan förblir i stor utsträckning drömmar: högkvalitativ översättning av texter om ett brett spektrum av ämnen är fortfarande ouppnåeligt. Accelerationen av översättarens arbete vid användning av maskinöversättningssystem är dock otvivelaktigt: enligt uppskattningar från slutet av 1980-talet, upp till fem gånger.

För närvarande finns det många kommersiella maskinöversättningsprojekt. En av pionjärerna inom området maskinöversättning var SYSTRAN . I Ryssland har en grupp ledd av prof. R. G. Piotrovsky ( Ryskt statligt pedagogiskt universitet uppkallat efter A. I. Herzen , St. Petersburg ).

Filosofiska grunder

På 1960 -talet sammanfattade Stanisław Lem uttalanden om problemet med maskinöversättning och sambandet med maskinens förståelse av texten (vilket t.ex. hänger samman med diskussionen om begreppet " kinesiska rummet " som formulerades 1980 ):

... vi insisterar på att förse översättningsmaskiner med människans "fullhet av det inre livet"; dock vet vi helt enkelt inte i vilken utsträckning man kan "undergive personlighet" till en maskin som är tänkt att översätta bra. Vi vet inte om det är möjligt att "förstå" utan att ha "personlighet" åtminstone i embryo. <...> Det är inte möjligt att effektivt använda det operativa språket till slutet som ett översättningsverktyg inom området diskursiva språk - mentala. Antingen kommer maskiner att agera "förståeligt", eller så kommer det inte att finnas några verkligt effektiva översättningsmaskiner alls [3] .

Översättningskvalitet

Kvaliteten på översättningen beror på källtextens ämne och stil , såväl som den grammatiska, syntaktiska och lexikaliska affiniteten hos språken mellan vilka översättningen görs. Maskinöversättning av litterära texter är nästan alltid av otillfredsställande kvalitet. Icke desto mindre, för tekniska dokument, i närvaro av specialiserade maskinordböcker och viss anpassning av systemet till funktionerna i en viss typ av text, är det möjligt att få en översättning av acceptabel kvalitet, som bara behöver en liten redaktionell korrigering. Ju mer formell stil källdokumentet har, desto bättre kvalitet kan översättningen förväntas. De bästa resultaten vid användning av maskinöversättning kan uppnås för texter skrivna i en teknisk (olika beskrivningar och manualer) och officiell affärsstil .

Användningen av maskinöversättning utan ämnesinställning (eller medvetet felinställning) är bakdelen av många internetskämt . Av de äldsta och mest populära exemplen på sådana skämt är texten för översättning av dokumentationen för musdrivrutinen känd som " Mouse Packers" den mest kända , uppgiven som "översättningen av datordokumentation av Poliglossums maskinöversättningssystem baserat på medicinsk , kommersiella och juridiska ordböcker" [komm. 1] . Från de korta - frasen " Vår katt födde tre kattungar - två vita och en svart ", som onlineöversättaren " PROMT " (version 7.0, 2007 ) förvandlade till " Vår katt födde tre kattungar - två vita och en afroamerikan ». [6] Om "afroamerikan" fortfarande kunde göras "svart" genom att skriva " svart kattunge ", så kunde "katt" inte ändra kön: till exempel översattes honkatt som "honkatt".

Oftast är sådana skämt relaterade till det faktum att programmet inte känner igen sammanhanget för frasen och översätter termerna ordagrant, förutom att inte skilja egennamn från vanliga ord. Samma PROMT-översättare förvandlade " Leo Tolstoy " till "Lion Thick" ("fett lejon"), " bra-ket notation " till "Katyas bh-notation", " Lie algebra " till "Lie algebra", " excentricitetsvektor " - till "originalitetsvektor", " Shawnee Smith " till "Shawnee Smith", spelet "Rött ljus, grönt ljus", populärt i serien " The Squid Game", till "rött ljus, grönt ljus", etc. Google Translate , på tvärtom, ordet " ris " förväxlades ofta med efternamnet på USA:s utrikesminister . Roblox - spel har stora maskinöversättningar som "car ram" till "car ram" i Beat up-simulatorspelet .

Se även

Kommentarer

  1. Det är dock inte så: Polyglossum ( sic ) är en elektronisk ordbok [4] , ett program av samma klass som Lingvo , som inte kan översätta på egen hand. På den tiden fanns den i versioner för DOS och Windows 3.x och, sämre än Lingvo och Context när det gäller kvaliteten på den allmänna ordboken, hade den en rekordvolym av specialiserade ordböcker. Dessutom ger individuella översättningsfel en falsk - troligen, efter maskinöversättning, redigerades texten manuellt: experimentets renhet: det hade verkligen inte kunnat göra utan ändringar som gjorts i texten av en mänsklig hand [5] .

Anteckningar

  1. Maskinöversättning: Regler vs. statistik . Hämtad 22 december 2011. Arkiverad från originalet 23 november 2011.
  2. ABBYYs nya synsätt på textöversättning . Datum för åtkomst: 22 december 2011. Arkiverad från originalet 20 januari 2012.
  3. " Summa Technologiae ", 1963 (eller 2:a upplagan 1967), kapitel 4.
  4. Polyglossum på den officiella webbplatsen . Hämtad 4 juli 2011. Arkiverad från originalet 16 september 2010.
  5. K. Knop. Sokrates är min vän, men sanningen är dyrare Arkiverad 21 januari 2021 på Wayback Machine // Computerra. - 1999. - Nr 47 (23 november).
  6. Vår katt födde tre kattungar - två vita och en afroamerikan

Litteratur

Länkar