Maskinöversätta

Den aktuella versionen av sidan har ännu inte granskats av erfarna bidragsgivare och kan skilja sig väsentligt från versionen som granskades den 21 oktober 2021; kontroller kräver 5 redigeringar .

Maskinöversättning är processen att översätta texter (skrivna och helst muntliga) från ett naturligt språk till ett annat med hjälp av ett speciellt datorprogram . Riktningen av vetenskaplig forskning relaterad till konstruktionen av sådana system kallas också.

Former för organisation av interaktion mellan datorer och människor i maskinöversättning

Med efterredigering: originaltexten bearbetas av maskinen och den mänskliga redigeraren korrigerar resultatet.
Med förredigering: en person anpassar texten till maskinell bearbetning (eliminerar eventuella tvetydiga avläsningar, förenklar och markerar texten), varefter mjukvarubehandlingen börjar.
Med interediting: en person stör arbetet i översättningssystemet och löser svåra fall.
Blandade system (till exempel samtidigt med för- och efterredigering).

Automatiserad översättning

Istället för "maskin" används ibland ordet automatisk , vilket inte påverkar innebörden. Termen automatiserad översättning har dock en helt annan innebörd - med det hjälper programmet helt enkelt en person att översätta texter.

Automatisk översättning involverar följande former av interaktion:

Delvis automatiserad översättning: till exempel användningen av datorordböcker av en mänsklig översättare .
System med arbetsfördelning: en dator är tränad att endast översätta fraser med en strikt definierad struktur (men gör det på ett sådant sätt att det inte behöver korrigeras), och allt som inte passar in i schemat ges till en person.

I engelsk terminologi särskiljs också termerna för engelska. maskinöversättning, MT (helautomatisk översättning) och engelska. maskinstödd eller eng. maskinassisterad översättning (MAT) (automatiserad); om det är nödvändigt att ange båda skriver de M(A)T.

Det finns flera fundamentalt olika tillvägagångssätt för konstruktionen av maskinöversättningsalgoritmer: regelbaserad , statistisk eller statistisk, neural maskinöversättning (NMT). Den första metoden är traditionell och används av de flesta utvecklare av maskinöversättningssystem (PROMT i Ryssland, SYSTRAN i Frankrike, Linguatec i Tyskland, etc.) [1] Den andra typen inkluderar den populära tjänsten Yandex.Translate , Google Translate , samt som en ny tjänst från ABBYY [ 2] . Nu är de flesta system hybrid - kombinerar regler, statistik och neurala nätverk.

Statistisk maskinöversättning

Statistisk maskinöversättning är en typ av maskinöversättning av text baserad på jämförelse av stora volymer språkpar. Språkpar - texter som innehåller meningar på ett språk och motsvarande meningar i det andra, kan antingen vara varianter av att skriva två meningar av en person som har två språk som modersmål, eller en uppsättning meningar och deras översättningar gjorda av en person. Således har statistisk maskinöversättning egenskapen att "självlära". Ju fler språkpar som finns tillgängliga och ju bättre de matchar varandra, desto bättre blir resultatet av statistisk maskinöversättning. Begreppet "statistisk maskinöversättning" hänvisar till ett allmänt tillvägagångssätt för att lösa problemet med översättning, som bygger på att hitta den mest sannolika översättningen av en mening med hjälp av data som erhållits från en tvåspråkig textmassa. Ett exempel på en tvåspråkig textsamling är riksdagsbetänkandena, som är protokoll från debatter i riksdagen. Tvåspråkiga parlamentariska register publiceras i Kanada, Hong Kong och andra länder; Europeiska ekonomiska gemenskapens officiella dokument publiceras på elva språk; a FN publicerar dokument på flera språk. Som det visar sig är dessa material ovärderliga resurser för statistisk maskinöversättning.

Maskinöversättningens historia

Idén att använda datorer för översättning uttrycktes 1947 i USA , omedelbart efter att de första datorerna kom. Den första offentliga demonstrationen av maskinöversättning (det så kallade Georgetown-experimentet ) ägde rum 1954 . Trots det primitiva systemet (en ordbok med 250 ord, en grammatik med 6 regler, översättning av flera enkla fraser), fick detta experiment ett brett svar: forskning började i England , Bulgarien , Östtyskland , Italien , Kina , Frankrike , Tyskland , Japan och andra länder; samma 1954 i Sovjetunionen .

I mitten av 1960- talet fanns två system för rysk-engelsk översättning för praktisk användning i USA:

MARK (i US Air Force Department of Foreign Vehicles);
GAT (utvecklad av Georgetown University, används vid National Atomic Energy Laboratory i Oak Ridge och vid Euratom-centret i Ispra, Italien).

Den ALPAC -kommission som inrättades för att utvärdera sådana system kom dock till slutsatsen att denna verksamhet är olönsam i USA på grund av den låga kvaliteten på maskinöversatta texter. Även om kommissionen rekommenderade att fortsätta och fördjupa den teoretiska utvecklingen, ledde dess slutsatser i allmänhet till en ökning av pessimism , en minskning av finansieringen och ofta till ett fullständigt upphörande av arbetet med detta ämne.

Ändå fortsatte forskningen i ett antal länder, med hjälp av de ständiga framstegen inom datorteknik. En särskilt betydelsefull faktor var uppkomsten av mini- och persondatorer , och med dem mer och mer komplexa ordbok-, sök- , etc.-system fokuserade på att arbeta med naturliga språkdata. Behovet av översättning som sådant växte också på grund av tillväxten av internationella relationer. Allt detta ledde till en ny uppgång inom detta område, som kom från mitten av 1970-talet . På 1980-talet kom tiden för den utbredda praktiska användningen av översättningssystem, och en marknad för kommersiell utveckling inom detta ämne uppstod.

Men de drömmar med vilka mänskligheten tog upp uppgiften att maskinöversätta för ett halvt sekel sedan förblir i stor utsträckning drömmar: högkvalitativ översättning av texter om ett brett spektrum av ämnen är fortfarande ouppnåeligt. Accelerationen av översättarens arbete vid användning av maskinöversättningssystem är dock otvivelaktigt: enligt uppskattningar från slutet av 1980-talet, upp till fem gånger.

För närvarande finns det många kommersiella maskinöversättningsprojekt. En av pionjärerna inom området maskinöversättning var SYSTRAN . I Ryssland har en grupp ledd av prof. R. G. Piotrovsky ( Ryskt statligt pedagogiskt universitet uppkallat efter A. I. Herzen , St. Petersburg ).

Filosofiska grunder

På 1960 -talet sammanfattade Stanisław Lem uttalanden om problemet med maskinöversättning och sambandet med maskinens förståelse av texten (vilket t.ex. hänger samman med diskussionen om begreppet " kinesiska rummet " som formulerades 1980 ):

... vi insisterar på att förse översättningsmaskiner med människans "fullhet av det inre livet"; dock vet vi helt enkelt inte i vilken utsträckning man kan "undergive personlighet" till en maskin som är tänkt att översätta bra. Vi vet inte om det är möjligt att "förstå" utan att ha "personlighet" åtminstone i embryo. <...> Det är inte möjligt att effektivt använda det operativa språket till slutet som ett översättningsverktyg inom området diskursiva språk - mentala. Antingen kommer maskiner att agera "förståeligt", eller så kommer det inte att finnas några verkligt effektiva översättningsmaskiner alls [3] .

Översättningskvalitet

Kvaliteten på översättningen beror på källtextens ämne och stil , såväl som den grammatiska, syntaktiska och lexikaliska affiniteten hos språken mellan vilka översättningen görs. Maskinöversättning av litterära texter är nästan alltid av otillfredsställande kvalitet. Icke desto mindre, för tekniska dokument, i närvaro av specialiserade maskinordböcker och viss anpassning av systemet till funktionerna i en viss typ av text, är det möjligt att få en översättning av acceptabel kvalitet, som bara behöver en liten redaktionell korrigering. Ju mer formell stil källdokumentet har, desto bättre kvalitet kan översättningen förväntas. De bästa resultaten vid användning av maskinöversättning kan uppnås för texter skrivna i en teknisk (olika beskrivningar och manualer) och officiell affärsstil .

Användningen av maskinöversättning utan ämnesinställning (eller medvetet felinställning) är bakdelen av många internetskämt . Av de äldsta och mest populära exemplen på sådana skämt är texten för översättning av dokumentationen för musdrivrutinen känd som " Mouse Packers" den mest kända , uppgiven som "översättningen av datordokumentation av Poliglossums maskinöversättningssystem baserat på medicinsk , kommersiella och juridiska ordböcker" [komm. 1] . Från de korta - frasen " Vår katt födde tre kattungar - två vita och en svart ", som onlineöversättaren " PROMT " (version 7.0, 2007 ) förvandlade till " Vår katt födde tre kattungar - två vita och en afroamerikan ». [6] Om "afroamerikan" fortfarande kunde göras "svart" genom att skriva " svart kattunge ", så kunde "katt" inte ändra kön: till exempel översattes honkatt som "honkatt".

Oftast är sådana skämt relaterade till det faktum att programmet inte känner igen sammanhanget för frasen och översätter termerna ordagrant, förutom att inte skilja egennamn från vanliga ord. Samma PROMT-översättare förvandlade " Leo Tolstoy " till "Lion Thick" ("fett lejon"), " bra-ket notation " till "Katyas bh-notation", " Lie algebra " till "Lie algebra", " excentricitetsvektor " - till "originalitetsvektor", " Shawnee Smith " till "Shawnee Smith", spelet "Rött ljus, grönt ljus", populärt i serien " The Squid Game", till "rött ljus, grönt ljus", etc. Google Translate , på tvärtom, ordet " ris " förväxlades ofta med efternamnet på USA:s utrikesminister . Roblox - spel har stora maskinöversättningar som "car ram" till "car ram" i Beat up-simulatorspelet .

Se även

Kommentarer

↑ Det är dock inte så: Polyglossum ( sic ) är en elektronisk ordbok [4] , ett program av samma klass som Lingvo , som inte kan översätta på egen hand. På den tiden fanns den i versioner för DOS och Windows 3.x och, sämre än Lingvo och Context när det gäller kvaliteten på den allmänna ordboken, hade den en rekordvolym av specialiserade ordböcker. Dessutom ger individuella översättningsfel en falsk - troligen, efter maskinöversättning, redigerades texten manuellt: experimentets renhet: det hade verkligen inte kunnat göra utan ändringar som gjorts i texten av en mänsklig hand [5] .

Anteckningar

↑ Maskinöversättning: Regler vs. statistik . Hämtad 22 december 2011. Arkiverad från originalet 23 november 2011. (obestämd)
↑ ABBYYs nya synsätt på textöversättning . Datum för åtkomst: 22 december 2011. Arkiverad från originalet 20 januari 2012. (obestämd)
↑ " Summa Technologiae ", 1963 (eller 2:a upplagan 1967), kapitel 4.
↑ Polyglossum på den officiella webbplatsen . Hämtad 4 juli 2011. Arkiverad från originalet 16 september 2010. (obestämd)
↑ K. Knop. Sokrates är min vän, men sanningen är dyrare Arkiverad 21 januari 2021 på Wayback Machine // Computerra. - 1999. - Nr 47 (23 november).
↑ Vår katt födde tre kattungar - två vita och en afroamerikan

Litteratur

Automatisk översättning / I. M. Boguslavsky // Great Russian Encyclopedia : [i 35 volymer] / kap. ed. Yu. S. Osipov . - M . : Great Russian Encyclopedia, 2004-2017.

Grashchenko L. A., Klyshinsky E. S., Tumkovsky S. R., Usmanov Z. D. Konceptuell modell av det rysk-tadzjikiska maskinöversättningssystemet // Reports of the Academy of Sciences of the Republic of Tadzjikistan. - 2011. - Volym 54, nr 4. - S. 279-285.

O. S. Kulagina. Om maskinöversättningens nuvarande tillstånd // Mathematical issues of cybernetics, vol. 3, M.: Nauka, 1991, sid. 5-50. Bibliografi över 140 titlar. ISBN 5-02-014323-5 .

Nikolaev I.S., Mitrenina O.V., Lando T.M. Tillämpad och beräkningslingvistik. - M . : Förlagsgruppen URSS, 2017.

The Future of Machine Translation // Computerra nr 21, 5 juni 2002.

Länkar

Maskinöversätta. Från det kalla kriget till djupinlärning

Ordböcker och uppslagsverk

I bibliografiska kataloger
BNF : 11947452q GND : 4003966-3 J9U : 987007292868605171 LCCN : sh00006582 NDL : 00565743 NKC : ph436036

naturlig språkbehandling
Allmänna definitioner	Korpus av texter talkorpus Stoppa ord påse med ord AI fullständighet N-gram Bigram chiffer trigram
Textanalys	Textsegmentering Delvis markering Ytanalys Sammansatt ordbehandling Extrahera samlokaliseringar härrörande Lematisering Named Entity Recognition Coreference resolution Textsentimentanalys Konceptextraktion analysera Upplösning av lexikal polysemi Extrahera terminologi Informationsextraktion Språkidentifiering Falldefinition
Refererar	Extrahera meningar Abstrakt generation Referens till flera dokument Textförenkling
Maskinöversätta	automatiserad Hybrid Interlingual Regelbaserad Baserat på exempel Ordboksbaserad Baserat på transformation neural Statistisk Synkron
Identifiering och datainsamling	Taligenkänning talsyntes Optisk teckenigenkänning Textgenerering
Tematisk modell	Pachinko placering Latent Dirichlet placering Latent semantisk analys
Peer review	Automatiserad bedömning av uppsatser Konkordansör Automatisk textinmatning Grammatikkontroll Stavningskontroll Syntax gissning
Naturligt språkgränssnitt	virtuell assistent Virtuell samtalspartner Fråge- och svarsystem Röstgränssnitt Interaktiv litteratur

Artificiell intelligens
Berättelse	Artificiell intelligenss historia Vinter av artificiell intelligens Dartmouth seminarium
Filosofi	Turing test Kinesiskt rum Stark och svag artificiell intelligens Vänlig artificiell intelligens Etiken kring artificiell intelligens Kontrollproblem
Vägbeskrivning	Agent tillvägagångssätt Adaptiv kontroll Kunskapsteknik Livskraftig systemmodell Maskininlärning Neuralt nätverk rolig logik naturlig språkbehandling Mönsterigenkänning Svärm intelligens Symbolisk AI Evolutionära algoritmer Expertsystem
Ansökan	Röst kontroll Klassificeringsproblem Dokumentklassificering Dokumentkluster klusteranalys Lokal sökning Maskinöversätta Optisk teckenigenkänning Taligenkänning Handskriftsigenkänning Spel AI
Forskare	Charles Babbage Vladimir Vapnik Joseph Weizenbaum Norbert Wiener Viktor Glushkov Vladimir Gorodetsky Jan LeCun Alexey Lyapunov John McCarthy Marvin Minsky Allen Newell Seymour Papert Juda pärla Germogen Pospelov Dmitrij Pospelov Frank Rosenblatt Herbert Alexander Simon Alan Turing Patrick Winston Victor Finn Sergey Fomin Demis Hassabis Geoffrey Hinton Noam Chomsky Claude Shannon Andrew Eun Eliezer Judkovsky