Elektronisk ordbok
Låter dig snabbt hitta rätt ord , ofta med hänsyn till morfologi och möjligheten att söka efter fraser (exempel på användning), samt möjligheten att ändra översättningsriktningen (till exempel engelska - ryska eller ryska - engelska ) .
Internt upplagd som en databas med ordboksposter .
Maskinläsbara ordböcker (förkortat MRD) används av datorprogram för att lösa olika problem, till exempel för att bearbeta texter på naturligt språk . Maskinläsbara ordböcker är en typ av elektroniska ordböcker.
Maskinläsbara ordböcker
Skapande av maskinläsbara ordböcker
Låt oss överväga metoder för automatiskt skapande och påfyllning av maskinläsbara (elektroniska) ordböcker.
I projektet Leipzig Corpora Collection [1] (LCC) byggs korpus och enspråkiga ordböcker på basis av texter hämtade från Internet [2] . LCC innehåller cirka 400 ordböcker. LCC-projektet använde texten i den allmänna förklaringen om mänskliga rättigheter som ett frö för att söka texter på Internet , eftersom deklarationen innehåller cirka 2000 vanliga ord och har översatts till 370 språk och dialekter [3] . Av de 200 Wikipedias valdes texter ut för att sammanställa totalt 70 ordböcker. Alla Wikipedia-texter har inte inkluderats i LCC-korpusen, eftersom många wikis börjar med att skapa stubbartiklar som innehåller nästan samma meningar [3] .
Ett sådant tillvägagångssätt är svårt att implementera för språk med låga resurser, men Crúbadán [4] -projektet , som har samlat in data för mer än 2200 språk, visar att automatisk sökning efter språk som representeras på Internet av ett litet eller enstaka antal texter är också möjligt [5] . I framtiden kommer dessa texter att användas för att skapa ordböcker, till exempel, i Crúbadán-projektet samlades mer än 100 miljoner walesiska ord in och hälften av de walesiska texterna med dessa ord överfördes till University of Wales för att skapa en walesisk ordbok [ 6] .
Användning av maskinläsbara ordböcker
Under 1980-talets arbeten föreslogs att stora kunskapsbaser skulle kunna byggas på grundval av maskinläsbara ordböcker . Men senare insåg man att man för detta behöver använda många resurser, främst korpora [7] .
Det maximala som uppnåddes när man hämtade kunskap från ordböcker var att automatiskt bygga flera ofullkomliga taxonomier [8] .
Svårigheter att extrahera information från ordböcker:
- Att konvertera från originalformatet kräver mycket ansträngning och denna uppgift är värd en separat studie, men forskare föredrar att ta itu med mer vetenskapliga uppgifter [10] . Svårigheten är att oklarheterna och motsägelserna i reglerna för att organisera den ursprungliga ordboken utesluter möjligheten att bygga en helautomatisk ordbokstolkare. Att bygga sådana tolkar är en tidskrävande och otacksam uppgift, så det finns väldigt få ordböcker tillgängliga för datorbehandling [10] .
- Motsägelser och inkonsekvenser i ordböcker leder till konstruktionen av mycket olika semantiska nätverk för olika ordböcker [11] . Kontroll av fragment av de fem viktigaste engelska ordböckerna visade att i 50-70 % av fallen är informationen i tolkningarna av ordböcker förvrängd eller saknas [12] . Samma bedrövliga bild får man i analysen av de tre franska huvudordböckerna. Av detta följer att de WSD- metoder som är baserade på analys av tolkningstexter inte kommer att fungera i dessa många fall [12] .
- Partiell manuell verifiering behövs för att bygga högkvalitativa kunskapsbaser på ordböcker [13] .
- Integrering av flera datakällor krävs . Det är vettigt att kombinera information från flera ordböcker, eftersom ofullständigheten i en ordbok kompenseras av en annan, som har andra luckor och utelämnanden av information. I ett litet experiment med att bygga en hierarki av fem engelska ordböcker minskade felfrekvensen från 55-70 % till 5 %. Kvaliteten på informationen som extraheras när man kombinerar ordböcker har förbättrats, men manuell verifiering behövs [13] . Å andra sidan visade analysen av 12 ryska ordböcker att det finns stora skärningspunkter mellan ordböckernas ordböcker [9] . Figuren visar andelen "unika" ordförråd i var och en av de ansedda ryska ordböckerna [9] .
Format för maskinläsbara ordböcker
För att använda maskinläsbara ordböcker måste de konverteras till ett fungerande format. Formatet bör vara tillräckligt generellt för kompatibilitet mellan olika ordböcker, för att skapa en enda programvara och återanvända ordböcker [13] . Ett exempel är formatet som utvecklats av TEI -gemenskapen [13] .
Nära relaterat till valet av ordboksformat är uppgiften att välja en lämplig modell för att representera maskinläsbara ordboksdata. Om du tittar på någon ordbokspost kan du se att organisationen av lexikografiska data är mycket mer komplicerad än uppgifterna i uppgiften " varuleverantör " eller organisationen av "anställdsdatabasen". Klassiska ( relationsdatabaser ) är inte idealiska för lexikaliska databaser [14] .
I de arbeten [15] [16] som ägnas åt forskning inom området databasdesign föreslås en alternativ modell för en egenskapsbaserad lexikal databas. Funktioner hos denna modell: (1) stöd för kapslingsvärden, (2) det finns en arvsmekanism för att eliminera överflödig information.
Populära elektroniska ordböcker
Ordböcker
Program
Program, webbplatser, etc.
- ABBYY Lingvo
- DICT - nätverksprotokoll
- Multitran
- polyglossum
- MultiLex - ryska-engelska, tyska, franska, spanska, italienska, portugisiska och flerspråkiga ordböcker. De inkluderar förklarande ordböcker och tematiska vokabulärbaser för översättning av specialiserad vokabulär.
Se även
Anteckningar
- ↑ Leipzig Corpora Collection
- ↑ Goldhahn et al., 2012 , sid. 760.
- ↑ 1 2 Goldhahn et al., 2012 , sid. 762.
- ↑ En Crúbadán - Corpus Building för minoritetsspråk
- ↑ Scannell, 2007 .
- ↑ Scannell, 2007 , sid. 9.
- ↑ Ide, Veronis, 1994 , sid. 137-138.
- ↑ Ide, Veronis, 1994 , sid. 138.
- ↑ 1 2 3 Kiselev et al., 2015 .
- ↑ 1 2 Ide, Veronis, 1994 , sid. 139.
- ↑ Ide, Veronis, 1994 , sid. 141.
- ↑ 1 2 Ide, Veronis, 1994 , sid. 140.
- ↑ 1 2 3 4 Ide, Veronis, 1994 , sid. 143.
- ↑ Ide, Veronis, 1994 , sid. 144.
- ↑ Ide, N., Le Maitre, J., & Veronis, J. (1994). Översikt över en modell för lexikaliska databaser . In Current Issues in Computational Linguistics: In Honor of Don Walker (s. 283-320). Springer, Dordrecht.
- ↑ Veronis, J., & Ide, N. (1992, augusti). En funktionsbaserad modell för lexikaliska databaser . I Proceedings of the 14th conference on Computational linguistics-Volume 2 (sid. 588-594). Föreningen för beräkningslingvistik.
Litteratur
- Goldhahn D., Eckart T., Quasthoff U. Building Large Monolingual Dictionaries at the Leipzig Corpora Collection: From 100 to 200 Languages // LREC : Istanbul , Turkey. - 2012. - Vol. 29 . - s. 759-765 .
- Ide, N., & Véronis, J. Maskinläsbara ordböcker: Vad har vi lärt oss, vart går vi // Proceedings of the International Workshop on the Future of Lexical Research: Peking, Kina. - 1994. - S. 137-146 .
- Kiselev Y., Krizhanovsky A., Braslavski P., Menshikov I., Mukhin M., Krizhanovskaya N. Ryskt lexikografiskt landskap: en berättelse om 12 ordböcker (engelska) // Computational Linguistics and Intellectual Technologies: “Dialogue”. — Moskva: RGGU, 2015. — Iss. 14 (21) . - S. 254-271 .
- Scannell KP The Crúbadán Project: Corpus building for under-resurs languages // Building and Exploring Web Corpora: Proceedings of the 3rd Web as Corpus Workshop. - 2007. - Vol. 4 . - S. 5-15 .