Elektronisk ordbok

Låter dig snabbt hitta rätt ord , ofta med hänsyn till morfologi och möjligheten att söka efter fraser (exempel på användning), samt möjligheten att ändra översättningsriktningen (till exempel engelska - ryska eller ryska - engelska ) .

Internt upplagd som en databas med ordboksposter .

Maskinläsbara ordböcker (förkortat MRD) används av datorprogram för att lösa olika problem, till exempel för att bearbeta texter på naturligt språk . Maskinläsbara ordböcker är en typ av elektroniska ordböcker.

Maskinläsbara ordböcker

Skapande av maskinläsbara ordböcker

Låt oss överväga metoder för automatiskt skapande och påfyllning av maskinläsbara (elektroniska) ordböcker.

I projektet Leipzig Corpora Collection [1] (LCC) byggs korpus och enspråkiga ordböcker på basis av texter hämtade från Internet [2] . LCC innehåller cirka 400 ordböcker. LCC-projektet använde texten i den allmänna förklaringen om mänskliga rättigheter som ett frö för att söka texter på Internet , eftersom deklarationen innehåller cirka 2000 vanliga ord och har översatts till 370 språk och dialekter [3] . Av de 200 Wikipedias valdes texter ut för att sammanställa totalt 70 ordböcker. Alla Wikipedia-texter har inte inkluderats i LCC-korpusen, eftersom många wikis börjar med att skapa stubbartiklar som innehåller nästan samma meningar [3] .

Ett sådant tillvägagångssätt är svårt att implementera för språk med låga resurser, men Crúbadán [4] -projektet , som har samlat in data för mer än 2200 språk, visar att automatisk sökning efter språk som representeras på Internet av ett litet eller enstaka antal texter är också möjligt [5] . I framtiden kommer dessa texter att användas för att skapa ordböcker, till exempel, i Crúbadán-projektet samlades mer än 100 miljoner walesiska ord in och hälften av de walesiska texterna med dessa ord överfördes till University of Wales för att skapa en walesisk ordbok [ 6] .

Användning av maskinläsbara ordböcker

Under 1980-talets arbeten föreslogs att stora kunskapsbaser skulle kunna byggas på grundval av maskinläsbara ordböcker . Men senare insåg man att man för detta behöver använda många resurser, främst korpora [7] .

Det maximala som uppnåddes när man hämtade kunskap från ordböcker var att automatiskt bygga flera ofullkomliga taxonomier [8] .

Svårigheter att extrahera information från ordböcker:

Format för maskinläsbara ordböcker

För att använda maskinläsbara ordböcker måste de konverteras till ett fungerande format. Formatet bör vara tillräckligt generellt för kompatibilitet mellan olika ordböcker, för att skapa en enda programvara och återanvända ordböcker [13] . Ett exempel är formatet som utvecklats av TEI -gemenskapen [13] .

Nära relaterat till valet av ordboksformat är uppgiften att välja en lämplig modell för att representera maskinläsbara ordboksdata. Om du tittar på någon ordbokspost kan du se att organisationen av lexikografiska data är mycket mer komplicerad än uppgifterna i uppgiften " varuleverantör " eller organisationen av "anställdsdatabasen". Klassiska ( relationsdatabaser ) är inte idealiska för lexikaliska databaser [14] .

I de arbeten [15] [16] som ägnas åt forskning inom området databasdesign föreslås en alternativ modell för en egenskapsbaserad lexikal databas. Funktioner hos denna modell: (1) stöd för kapslingsvärden, (2) det finns en arvsmekanism för att eliminera överflödig information.

Populära elektroniska ordböcker

Ordböcker

Program

Program, webbplatser, etc.

Se även

Anteckningar

  1. Leipzig Corpora Collection
  2. Goldhahn et al., 2012 , sid. 760.
  3. 1 2 Goldhahn et al., 2012 , sid. 762.
  4. En Crúbadán - Corpus Building för minoritetsspråk
  5. Scannell, 2007 .
  6. Scannell, 2007 , sid. 9.
  7. Ide, Veronis, 1994 , sid. 137-138.
  8. Ide, Veronis, 1994 , sid. 138.
  9. 1 2 3 Kiselev et al., 2015 .
  10. 1 2 Ide, Veronis, 1994 , sid. 139.
  11. Ide, Veronis, 1994 , sid. 141.
  12. 1 2 Ide, Veronis, 1994 , sid. 140.
  13. 1 2 3 4 Ide, Veronis, 1994 , sid. 143.
  14. Ide, Veronis, 1994 , sid. 144.
  15. Ide, N., Le Maitre, J., & Veronis, J. (1994). Översikt över en modell för lexikaliska databaser . In Current Issues in Computational Linguistics: In Honor of Don Walker (s. 283-320). Springer, Dordrecht.
  16. Veronis, J., & Ide, N. (1992, augusti). En funktionsbaserad modell för lexikaliska databaser . I Proceedings of the 14th conference on Computational linguistics-Volume 2 (sid. 588-594). Föreningen för beräkningslingvistik.

Litteratur