Lesks algoritm är en klassisk kunskapsbaserad lexikal disambigueringsalgoritm som föreslagits av Michael Lesk 1986 .
Michael Lesk försökte självständigt lösa problemet med att matcha ett ord och dess betydelse på engelska med hjälp av maskinläsbara ordböcker . Tanken med metoden var att söka efter betydelsen av ett ord i listan över ordboksdefinitioner, med hänsyn till sammanhanget där detta ord används. Huvudkriteriet för val av betydelse var följande regel: innebörden i denna definition måste delvis sammanfalla med betydelsen av betydelsen av angränsande ord i sammanhanget [1] .
Som ett exempel, överväga uppgiften - att bestämma betydelsen av ordet " katt " i texten " Nya raser av katter har fötts upp i Kina ". Låt oss säga att ordboken ger två definitioner för ordet " katt ":
Algoritmen kommer att visa att med definition (1) har denna text ett vanligt ord - " raser ", men med definition (2) inget. Därför kommer Lesks algoritm att välja värdet " cat " 1 .
Lesk-algoritmen använder inte redan hittade definitioner för att hitta betydelsen av nya ord . Algoritmen tittar på varje ord separat, letar efter en betydelse för det, när man tar reda på den korrekta betydelsen av ett ord , gjorde algoritmen samma sak med nästa ord [1] .
Det finns ett stort antal verk som föreslår användningen av en modifiering av Lesk-algoritmen. Dessa studier är baserade på idén att använda olika vokabulärer (synonymordböcker, synonymordböcker, etc.) eller modeller (morfologiska, syntaktiska, etc.) tillsammans. Alla dessa verk är inriktade på bearbetning av olika icke-ordbokstexter, och ingen av dem använder den förklarande ordboken som material för bearbetning. Dessutom är processen nästan alltid begränsad till ett litet antal experiment och bearbetning av tillräckligt stora datamatriser utförs inte.
Som möjliga sätt att förbättra den ursprungliga Lesk-algoritmen använder vi ytterligare information om likheten mellan ord och tar hänsyn till betydelsen av matchningar för olika ord.
Som det första exemplet på den modifierade Lesk-metoden kan vi nämna en variant av algoritmen, där en ordbok över synonymer, en ordbildningsmorfologisk modell används som ytterligare information, och tolkningar av orden som ingår i den ursprungliga tolkningen också är involverade. .
En viktig poäng är att ordet meningsdisambigueringsalgoritm tillämpas på tolkningar hämtade från ordboken, vilket avsevärt förenklar uppgiften jämfört med att tillämpa algoritmen på vanliga texter, av följande skäl:
Som ett andra exempel på den modifierade Lesk-metoden kan vi ge en variant av algoritmen baserad på två hypoteser. Den första hypotesen är att ord som förekommer i en mening kan disambigueras genom att tilldela dem en betydelse som ligger närmast angränsande ord. Detta följer av den intuitiva föreställningen att ord som förekommer tillsammans i samma mening nödvändigtvis är relaterade på något sätt, eftersom de genom att överensstämma med varandra förmedlar en viss betydelse. Den andra hypotesen är att relaterade betydelser kan identifieras genom att hitta ord i deras definitioner som förekommer i tolkningarna av båda orden. Denna hypotes kan också motiveras med hjälp av en intuitiv föreställning, nämligen att ord som är besläktade i betydelse kan definieras med samma termer och även kan referera till varandra i sina definitioner.
Som ett exempel, överväg två betydelser av ordet " kalejdoskop ":
Och texten "Kaleidoskopets vackra färgmönster fascinerar både vuxna och barn." Med den första definitionen har denna text två ord gemensamma, och med den andra - inga. Därför kommer Lesks algoritm att välja det första värdet.
Tyvärr är Lesks tillvägagångssätt väldigt känsligt för den exakta formuleringen av definitionerna, så att missa ett specifikt ord kan drastiskt förändra resultaten. En annan nackdel är att algoritmen upptäcker överlappningar endast bland tolkningarna av betydelserna som beaktas. Detta är en betydande begränsning eftersom ordboksdefinitioner tenderar att vara ganska korta och inte tillhandahåller tillräckligt med ordförråd för att visa skillnaden mellan definitioner som har liknande betydelse.
Nyligen har ett stort antal verk dykt upp som föreslår användningen av modifieringar av Lesk-algoritmen. I dessa verk framförs idéer relaterade till ytterligare användning av olika ordböcker ( synonymordböcker , synonymordböcker ) eller modeller ( morfologiska , syntaktiska , etc.), se till exempel [2] :
När det gäller Lesk-algoritmen finns det många studier och tillägg:
Relativt stora experiment för att testa denna metod har inte utförts, förutom på korpusen av boken " Pride and Prejudice " och tidningen Associated Press . Resultatet varierade från 50 % till 70 %.