Ställningsmetod

Den aktuella versionen av sidan har ännu inte granskats av erfarna bidragsgivare och kan skilja sig väsentligt från versionen som granskades den 3 oktober 2017; verifiering kräver 1 redigering .

Lesks algoritm är en klassisk kunskapsbaserad lexikal disambigueringsalgoritm som föreslagits av Michael Lesk 1986 .

Beskrivning

Michael Lesk försökte självständigt lösa problemet med att matcha ett ord och dess betydelse på engelska med hjälp av maskinläsbara ordböcker . Tanken med metoden var att söka efter betydelsen av ett ord i listan över ordboksdefinitioner, med hänsyn till sammanhanget där detta ord används. Huvudkriteriet för val av betydelse var följande regel: innebörden i denna definition måste delvis sammanfalla med betydelsen av betydelsen av angränsande ord i sammanhanget [1] .

Hur algoritmen fungerar

Separation av sammanhanget för ordet i fråga - högst 10 ord närmast i positionen .
Sök i alla definitioner i ordboken (någon annan liknande kunskapskälla) efter ordet i fråga .
Sök efter ord från sammanhanget i varje hittad definition. Om något ord från sammanhanget finns med i definitionen, får denna definition ett poängvärde (andelen av korrekthet av definitionen för detta sammanhang ökar ).
Som det mest sannolika värdet väljs den för vilken en sådan korsning visade sig vara större.

Ett exempel på hur algoritmen fungerar

Som ett exempel, överväga uppgiften - att bestämma betydelsen av ordet " katt " i texten " Nya raser av katter har fötts upp i Kina ". Låt oss säga att ordboken ger två definitioner för ordet " katt ":

" katt " 1 - ett husdjur från kattrasen;
" Cat " 2 är en klätterutrustning.

Algoritmen kommer att visa att med definition (1) har denna text ett vanligt ord - " raser ", men med definition (2) inget. Därför kommer Lesks algoritm att välja värdet " cat " 1 .

Metod Författarens anteckningar

Lesk betraktade bokstäveredjor i det engelska alfabetet som ord [1] .
När man valde 4, 6 och 8 ord för sammanhanget skilde sig inte resultaten av algoritmen mycket [1] .
Författaren i sitt arbete använde Oxford English Dictionaries som en kunskapskälla [1] .

Fördelar med algoritmen

Algoritm oberoende av syntax . Detta gör att algoritmen kan användas som ett komplement till metoder baserade på analys [1] .
Algoritmens oberoende från ordets lexikaliska betydelse . Baserat på sammanhanget kan algoritmen matcha ordet med dess bildliga betydelser [1] .

Nackdelar med algoritmen

Lesk-algoritmen använder inte redan hittade definitioner för att hitta betydelsen av nya ord . Algoritmen tittar på varje ord separat, letar efter en betydelse för det, när man tar reda på den korrekta betydelsen av ett ord , gjorde algoritmen samma sak med nästa ord [1] .

Algoritmändringar

Det finns ett stort antal verk som föreslår användningen av en modifiering av Lesk-algoritmen. Dessa studier är baserade på idén att använda olika vokabulärer (synonymordböcker, synonymordböcker, etc.) eller modeller (morfologiska, syntaktiska, etc.) tillsammans. Alla dessa verk är inriktade på bearbetning av olika icke-ordbokstexter, och ingen av dem använder den förklarande ordboken som material för bearbetning. Dessutom är processen nästan alltid begränsad till ett litet antal experiment och bearbetning av tillräckligt stora datamatriser utförs inte.

Förbättra metoden

Som möjliga sätt att förbättra den ursprungliga Lesk-algoritmen använder vi ytterligare information om likheten mellan ord och tar hänsyn till betydelsen av matchningar för olika ord.

Som det första exemplet på den modifierade Lesk-metoden kan vi nämna en variant av algoritmen, där en ordbok över synonymer, en ordbildningsmorfologisk modell används som ytterligare information, och tolkningar av orden som ingår i den ursprungliga tolkningen också är involverade. .

En viktig poäng är att ordet meningsdisambigueringsalgoritm tillämpas på tolkningar hämtade från ordboken, vilket avsevärt förenklar uppgiften jämfört med att tillämpa algoritmen på vanliga texter, av följande skäl:

alla tolkningsord är uppenbarligen kopplade till huvudordet, eftersom de ingår i dess definition;
därför är det inga problem att välja storleken på det sammanhangsfönster som ord ska betraktas i, utan hela definitionen används;
disambiguation av orddel (vilket vanligtvis är det första steget i sådana algoritmer) förenklas eftersom tolkningarna är strukturerade och därför är orddelarna på vissa platser förutsägbara; dessutom hjälper information om huvudordets grammatiska klass.

Som ett andra exempel på den modifierade Lesk-metoden kan vi ge en variant av algoritmen baserad på två hypoteser. Den första hypotesen är att ord som förekommer i en mening kan disambigueras genom att tilldela dem en betydelse som ligger närmast angränsande ord. Detta följer av den intuitiva föreställningen att ord som förekommer tillsammans i samma mening nödvändigtvis är relaterade på något sätt, eftersom de genom att överensstämma med varandra förmedlar en viss betydelse. Den andra hypotesen är att relaterade betydelser kan identifieras genom att hitta ord i deras definitioner som förekommer i tolkningarna av båda orden. Denna hypotes kan också motiveras med hjälp av en intuitiv föreställning, nämligen att ord som är besläktade i betydelse kan definieras med samma termer och även kan referera till varandra i sina definitioner.

Som ett exempel, överväg två betydelser av ordet " kalejdoskop ":

en optisk anordning - ett rör med spegelplattor och färgade glasögon, som, när de vänds, vikas in i olika mönster;
snabb förändring av olika fenomen.

Och texten "Kaleidoskopets vackra färgmönster fascinerar både vuxna och barn." Med den första definitionen har denna text två ord gemensamma, och med den andra - inga. Därför kommer Lesks algoritm att välja det första värdet.

Kritik av algoritmen och andra liknande metoder

Tyvärr är Lesks tillvägagångssätt väldigt känsligt för den exakta formuleringen av definitionerna, så att missa ett specifikt ord kan drastiskt förändra resultaten. En annan nackdel är att algoritmen upptäcker överlappningar endast bland tolkningarna av betydelserna som beaktas. Detta är en betydande begränsning eftersom ordboksdefinitioner tenderar att vara ganska korta och inte tillhandahåller tillräckligt med ordförråd för att visa skillnaden mellan definitioner som har liknande betydelse.

Nyligen har ett stort antal verk dykt upp som föreslår användningen av modifieringar av Lesk-algoritmen. I dessa verk framförs idéer relaterade till ytterligare användning av olika ordböcker ( synonymordböcker , synonymordböcker ) eller modeller ( morfologiska , syntaktiska , etc.), se till exempel [2] :

När det gäller Lesk-algoritmen finns det många studier och tillägg:

Kwong, 2001 [3] ;
Nastase och Szpakowicz, 2001 [4] ;
Wilks och Stevenson, 1998, 1999 [5] [6] ;
Mahesh et al (Mahesh), 1997;
Cowie et al., (Cowie), 1992 [7] ;
Yarowsky , 1992 [8] ;
Pook och Catlett, 1988 [9] ;
Kilgarriff & Rosenzweig, 2000 [10] ;
Alexander Gelbukh, Grigory Sidorov, 2004 [11] .

Metodnoggrannhet

Relativt stora experiment för att testa denna metod har inte utförts, förutom på korpusen av boken " Pride and Prejudice " och tidningen Associated Press . Resultatet varierade från 50 % till 70 %.

Anteckningar

↑ 1 2 3 4 5 6 7 Lesk, Michael, 1986 .
↑ Det bör noteras att alla dessa fungerar[ vad? ] , förutom (Nastase och Szpakowicz, 2001), är fokuserade på att bearbeta vanliga texter, inte ordböcker , och ingen av dem använder den förklarande ordboken som material för bearbetning . Dessutom är frågan nästan alltid begränsad till ganska små experiment och bearbetning av tillräckligt stora datamatriser utförs inte.
↑ Kwong, 2001 .
↑ Nastase & Szpakowicz, 2001 .
↑ Wilks & Stevenson, 1998 .
↑ Wilks & Stevenson2, 1999 .
↑ Cowie et al, 1992 .
↑ Yarowsky, 1992 .
↑ Pook & Catlett, 1988 .
↑ Rosenzweig & Kilgarriff, 2000 .
↑ Gelbukh och Sidorov, 2004 .

Litteratur

Lesk, Michael. Automatic Sense Disambiguation Using Machine Readable Dictionaries: How to Tell a Pine Cone from an Ice Cream Cone // Proceedings of the 5th Annual International Conference on Systems Documentation. - 1986. - S. 24-26 .
Agirre, E. och Edmonds, PG Ordavkänningsdisambiguation: Algoritmer och applikationer. - Springer, 2007. - ISBN 9781402048098 .

Gelbukh A.F., Sidorov G.O. Metod för automatisk upplösning av oklarheter i ordbetydelser i ordbokstolkningar // Vetenskaplig och teknisk information (NTI), serie 2, Informationsprocesser och -system: tidskrift. - M. : VINITI RAN, 2004. - Nr 3 . - S. 10-15 . — ISSN 0548-0027 .

Kwong OI bildar en integrerad lexikalisk resurs för disambiguation av ordkänsla . – 2001.

Nastase V. och Szpakowicz S. Förenande semantiska relationer över syntaktiska nivåer . - Ottawa, Kanada: School of Information Technology and Engineering University of Ottawa, 2001.

Wilks, Y., Stevenson M. Disambiguation av ordkänsla med optimerade kombinationer av kunskapskällor (engelska) // Proceedings of ACL 36/Coling 17, Volume 2. - 1998. - P. 1398-1402 .

Wilks, Y., Stevenson M. Kombinera svaga kunskapskällor för meningsdisambiguation (engelska) // Proceedings of IJCAI-99. - 1999. - P. 884-889 .

Cowie J., Guthrie L., Guthrie G. Lexisk disambiguering med hjälp av simulerad annealing // COLING '92 Proceedings of the 14th conference on Computational linguistics - Volym 1. - 1992. - P. 359-365 .

Yarowksy D. Disambiguation av ord och mening med hjälp av statistiska modeller av Rogets kategorier tränade på stora korpora // Proceeding Coling'92 Proceedings of the 14th conference on Computational linguistics, Volym 2. - Nante, Frankrike, 1992. - P. 454 -460 .

Pook SL, Catlett J. Att söka vettigt . — Sydney, 1988.

Kilgarriff A., Rosenzweig J. Framework and Results for English SENSEVAL // Computers and the Humanities : journal. - Kluwer Academic Publishers, 2000. - Nej . 34 . - S. 15-48 . — ISSN 1572-8412 .