Ställningsmetod

Den aktuella versionen av sidan har ännu inte granskats av erfarna bidragsgivare och kan skilja sig väsentligt från versionen som granskades den 3 oktober 2017; verifiering kräver 1 redigering .

Lesks algoritm  är en klassisk kunskapsbaserad lexikal disambigueringsalgoritm som föreslagits av Michael Lesk 1986 .

Beskrivning

Michael Lesk försökte självständigt lösa problemet med att matcha ett ord och dess betydelse på engelska med hjälp av maskinläsbara ordböcker . Tanken med metoden var att söka efter betydelsen av ett ord i listan över ordboksdefinitioner, med hänsyn till sammanhanget där detta ord används. Huvudkriteriet för val av betydelse var följande regel: innebörden i denna definition måste delvis sammanfalla med betydelsen av betydelsen av angränsande ord i sammanhanget [1] .

Hur algoritmen fungerar

  1. Separation av sammanhanget för ordet i fråga - högst 10 ord  närmast i positionen .
  2. Sök i alla definitioner i ordboken (någon annan liknande kunskapskälla) efter ordet i fråga .
  3. Sök efter ord från sammanhanget i varje hittad definition. Om något ord från sammanhanget finns med i definitionen, får denna definition ett poängvärde (andelen av korrekthet av definitionen för detta sammanhang ökar ).
  4. Som det mest sannolika värdet väljs den för vilken en sådan korsning visade sig vara större.

Ett exempel på hur algoritmen fungerar

Som ett exempel, överväga uppgiften - att bestämma betydelsen av ordet " katt " i texten " Nya raser av katter har fötts upp i Kina ". Låt oss säga att ordboken ger två definitioner för ordet " katt ":

  1. " katt " 1  - ett husdjur från kattrasen;
  2. " Cat " 2  är en klätterutrustning.

Algoritmen kommer att visa att med definition (1) har denna text ett vanligt ord  - " raser ", men med definition (2) inget. Därför kommer Lesks algoritm att välja värdet " cat " 1 .

Metod Författarens anteckningar

Fördelar med algoritmen

Nackdelar med algoritmen

Lesk-algoritmen använder inte redan hittade definitioner för att hitta betydelsen av nya ord . Algoritmen tittar på varje ord separat, letar efter en betydelse för det, när man tar reda på den korrekta betydelsen av ett ord , gjorde algoritmen samma sak med nästa ord [1] .

Algoritmändringar

Det finns ett stort antal verk som föreslår användningen av en modifiering av Lesk-algoritmen. Dessa studier är baserade på idén att använda olika vokabulärer (synonymordböcker, synonymordböcker, etc.) eller modeller (morfologiska, syntaktiska, etc.) tillsammans. Alla dessa verk är inriktade på bearbetning av olika icke-ordbokstexter, och ingen av dem använder den förklarande ordboken som material för bearbetning. Dessutom är processen nästan alltid begränsad till ett litet antal experiment och bearbetning av tillräckligt stora datamatriser utförs inte.

Förbättra metoden

Som möjliga sätt att förbättra den ursprungliga Lesk-algoritmen använder vi ytterligare information om likheten mellan ord och tar hänsyn till betydelsen av matchningar för olika ord.

Som det första exemplet på den modifierade Lesk-metoden kan vi nämna en variant av algoritmen, där en ordbok över synonymer, en ordbildningsmorfologisk modell används som ytterligare information, och tolkningar av orden som ingår i den ursprungliga tolkningen också är involverade. .

En viktig poäng är att ordet meningsdisambigueringsalgoritm tillämpas på tolkningar hämtade från ordboken, vilket avsevärt förenklar uppgiften jämfört med att tillämpa algoritmen på vanliga texter, av följande skäl:

Som ett andra exempel på den modifierade Lesk-metoden kan vi ge en variant av algoritmen baserad på två hypoteser. Den första hypotesen är att ord som förekommer i en mening kan disambigueras genom att tilldela dem en betydelse som ligger närmast angränsande ord. Detta följer av den intuitiva föreställningen att ord som förekommer tillsammans i samma mening nödvändigtvis är relaterade på något sätt, eftersom de genom att överensstämma med varandra förmedlar en viss betydelse. Den andra hypotesen är att relaterade betydelser kan identifieras genom att hitta ord i deras definitioner som förekommer i tolkningarna av båda orden. Denna hypotes kan också motiveras med hjälp av en intuitiv föreställning, nämligen att ord som är besläktade i betydelse kan definieras med samma termer och även kan referera till varandra i sina definitioner.

Som ett exempel, överväg två betydelser av ordet " kalejdoskop ":

  1. en optisk anordning - ett rör med spegelplattor och färgade glasögon, som, när de vänds, vikas in i olika mönster;
  2. snabb förändring av olika fenomen.

Och texten "Kaleidoskopets vackra färgmönster fascinerar både vuxna och barn." Med den första definitionen har denna text två ord gemensamma, och med den andra - inga. Därför kommer Lesks algoritm att välja det första värdet.

Kritik av algoritmen och andra liknande metoder

Tyvärr är Lesks tillvägagångssätt väldigt känsligt för den exakta formuleringen av definitionerna, så att missa ett specifikt ord kan drastiskt förändra resultaten. En annan nackdel är att algoritmen upptäcker överlappningar endast bland tolkningarna av betydelserna som beaktas. Detta är en betydande begränsning eftersom ordboksdefinitioner tenderar att vara ganska korta och inte tillhandahåller tillräckligt med ordförråd för att visa skillnaden mellan definitioner som har liknande betydelse.

Nyligen har ett stort antal verk dykt upp som föreslår användningen av modifieringar av Lesk-algoritmen. I dessa verk framförs idéer relaterade till ytterligare användning av olika ordböcker ( synonymordböcker , synonymordböcker ) eller modeller ( morfologiska , syntaktiska , etc.), se till exempel [2] :

När det gäller Lesk-algoritmen finns det många studier och tillägg:

Metodnoggrannhet

Relativt stora experiment för att testa denna metod har inte utförts, förutom på korpusen av boken " Pride and Prejudice " och tidningen Associated Press . Resultatet varierade från 50 % till 70 %.

Anteckningar

  1. 1 2 3 4 5 6 7 Lesk, Michael, 1986 .
  2. Det bör noteras att alla dessa fungerar[ vad? ] , förutom (Nastase och Szpakowicz, 2001), är fokuserade på att bearbeta vanliga texter, inte ordböcker , och ingen av dem använder den förklarande ordboken som material för bearbetning . Dessutom är frågan nästan alltid begränsad till ganska små experiment och bearbetning av tillräckligt stora datamatriser utförs inte.
  3. Kwong, 2001 .
  4. Nastase & Szpakowicz, 2001 .
  5. Wilks & Stevenson, 1998 .
  6. Wilks & Stevenson2, 1999 .
  7. Cowie et al, 1992 .
  8. Yarowsky, 1992 .
  9. Pook & Catlett, 1988 .
  10. Rosenzweig & Kilgarriff, 2000 .
  11. Gelbukh och Sidorov, 2004 .

Litteratur