Upplösning av lexikal polysemi

Den aktuella versionen av sidan har ännu inte granskats av erfarna bidragsgivare och kan skilja sig väsentligt från versionen som granskades den 3 april 2021; kontroller kräver 12 redigeringar .

Disambiguation av ordkänsla ( WSD ) är ett  olöst naturligt språkbearbetningsproblem , som består i uppgiften att välja innebörden (eller betydelsen) av ett tvetydigt ord eller en fras beroende på i vilket sammanhang det befinner sig. Detta problem uppstår i diskursiv analys , när man optimerar relevansen av resultat av sökmotorer, när man löser anaforiska referenser , när man studerar den språkliga koherensen i en text, när man analyserar slutsatser .

Vetenskaplig forskning om upplösning av lexikal polysemi har varit inom området tillämpad och beräkningslingvistik under lång tid och har en lång historia. Under åren har antalet föreslagna lösningar och deras effektivitet ökat stadigt tills effektiviteten har nått en viss nivå av jämförelsevis effektiv noggrannhet för ett visst utbud av ord och typer av polysemi . Problemet har ännu inte fått en fullständig lösning, eftersom många problem som är direkt relaterade till det mänskliga talets språkliga egenskaper står i vägen för en framgångsrik lösning.

Ett stort antal metoder har utforskats, allt från kunskapsbaserade metoder, regler, lexikografiska källor, övervakat lärande på en korpus av texter, till oövervakade inlärningsmetoder som grupperar ord utifrån mening. Bland dessa har övervakade inlärningsmetoder hittills visat den bästa effektiviteten. Men objektiv jämförelse och utvärdering av metoder är en komplex process som beror på många faktorer. För generaliserade ordförrådssystem (för engelska) överstiger effektiviteten regelbundet ribban på 90 %, ibland till och med 96 %. För mer differentierade ordförrådssystem är effektiviteten i intervallet 59% -69%.

Om disambigueringsprocessen

I allmänhet förstås tvetydigheten (eller tvetydigheten) i ett språkligt uttryck eller talverk (text) som närvaron av flera olika betydelser samtidigt [1] . Forskare delar flera typer av sådan tvetydighet: lexikal, syntaktisk och tal, men termen "WSD" inkluderar upplösningen av lexikaliska (semantiska) sådana.

Vad vi pratar om kan förstås från följande exempel med det tvetydiga ordet "nyckel":

  1. nyckel som ett verktyg för att öppna
  2. nyckel som vattenkälla

samt 3 sammanhang:

  1. Nyckeln kom upp, dörren öppnades
  2. Jag blev full av nyckeln
  3. Livet vimlar

Det är uppenbart för en person att i den första meningen används ordet " nyckel " i den första betydelsen, i den andra meningen - respektive i den andra betydelsen och i den tredje - varianter är möjliga. Att utveckla algoritmer som efterliknar denna mänskliga förmåga kan ibland vara en skrämmande uppgift.

Upplösningsprocessen kräver flera saker: vokabulärkunskapssystem för att definiera flera betydelser av ord, och en korpus av texter att lösa ( andra kunskapskällor kan krävas i vissa fall ).

Kort historik över området

Detta problem formulerades först som ett separat problem på 1940-talet, under de första dagarna av maskinöversättning, vilket gjorde det till ett av de äldsta problemen inom beräkningslingvistik. Warren Weaver presenterade i sitt berömda " The  'Translation' Memorandum" (1949) [2] problemet i en datoranvändningsaspekt. Den tidens forskare var väl medvetna om dess betydelse och komplexitet, i synnerhet uttryckte Joshua Bar-Hillel (en av pionjärerna) 1960 tvivel om att uppgiften med universell helautomatisk maskinöversättning någonsin skulle vara genomförbar på grund av behovet av att modellera all mänsklig kunskap om världen [3] .

På 70-talet blev WSD-problemet en del av de semantiska tolkningssystemen som utvecklades inom AI -området , men de bestod mestadels av manuellt härledda regler och var därför helt beroende av mängden tillgänglig kunskap, vilket på den tiden var extremt mödosamt att utvinna.

På 1980-talet blev sådana omfattande resurser som Oxford Advanced Learner's Dictionary of Current English tillgängliga och manuell skrivning av regler ersattes av automatisk utvinning av kunskap från sådana källor, men metoderna lämnade fortfarande inte klassen av så kallad "kunskap- baserade metoder".

Men på 90-talet förändrade den "statistiska revolutionen" helt tillvägagångssätten och metoderna inom beräkningslingvistik, och problemet med att lösa lexikal polysemi blev ett problem som alla typer av övervakade inlärningsmetoder är tillämpliga på [4] .

2000-talet visade att övervakade inlärningsmetoder har nått en viss nivå av noggrannhet och inte kan övervinna den, så forskarnas uppmärksamhet har flyttats mot att arbeta med mer generaliserade system för ordförrådskunskap (grovkorniga sinnen), anpassning till ämnesområden (domänanpassning) , partiellt övervakat lärande (semi-övervakat system) och oövervakat lärande (oövervakat korpus-baserade system), blandade metoder, samt bearbeta kunskapsbaser och visa resultat i form av grafer (återkomst av kunskapsbaserade system via grafbaserade metoder). Men fram till idag anses övervakade lärsystem vara de mest effektiva.

Problem och svårigheter

Men varför orsakar en sådan uppgift så många svårigheter, och resultaten av dess lösningar visar relativt låg effektivitet? I processen att arbeta med problemet med att lösa lexikal polysemi upptäcktes ett stort antal svårigheter, oftast på grund av egenskaperna hos mänsklig psykologi och tal.

Sammanställning av ordböcker

För det första är alla ordböcker olika och inte likvärdiga med varandra. Oftast orsakar uppgiften att särskilja betydelsen av ett ord från varandra inte svårigheter, men i vissa fall kan olika betydelser av ett ord vara väldigt nära varandra semantiskt (till exempel om var och en av dem är en metafor eller metonymi för varandra), och i sådana situationer kan uppdelningen i betydelser i olika ordböcker och synonymordböcker variera avsevärt. Lösningen på denna svårighet kan vara universell användning av samma datakälla: en universell ordbok. Globalt sett är resultaten av studier som använder ett mer generaliserat semantiskt divisionssystem mer effektiva [5] [6] , så vissa forskare ignorerar helt enkelt bearbetningen av ordböcker och synonymordböcker med en mer detaljerad semantisk uppdelning i sitt arbete.

Del av talet definition

För det andra, i vissa språk, kan en del av -ord-markering vara mycket nära relaterad till problemet med disambiguering, med resultatet att dessa två problem kan störa varandra. Forskare har inte kommit till enighet om huruvida det är värt att dela upp dem i två autonoma komponenter, men fördelen ligger hos dem som anser att detta är nödvändigt [7] .

Mänsklig faktor och konsekvens av manuella resultat

Den tredje svårigheten ligger i den mänskliga faktorn . Disambigueringssystem har alltid utvärderats genom att jämföra resultat med mänskligt arbete. Och för människor är den här uppgiften kanske inte så enkel som POS-taggning  - det är flera gånger svårare att markera betydelser bland flera föreslagna [8] . Om en person kan komma ihåg eller lätt gissa de delar av tal som ett ord kan vara, är det inte möjligt att komma ihåg alla möjliga betydelser av ord. Dessutom, som det visade sig, sammanfaller inte alltid resultaten från olika personer [9] , och de kommer ofta inte fram till ett gemensamt beslut om innebörden i vilken ett givet ord används i ett visst sammanhang. Trots detta tar forskare resultatet av en person som en standard, ett riktmärke för jämförelse med resultaten från en dator. Det bör noteras att en person klarar sig mycket bättre med generaliserade system av ordböcker än med detaljerade - och det är därför forskarnas uppmärksamhet har övergått till dem [5] [6] .

Sunt förnuft

Vissa forskare hävdar [10] att sunt förnuft också är viktigt vid bearbetning av texter, vilket knappast är möjligt för en dator att lära ut. Följande två meningar är exempel:

Den första meningen antyder att Jill och Mary är varandras systrar; i den andra, att både Jill och Mary är båda mammor, och det är inte ett faktum att de är släktingar. Därför, för en mer exakt analys av betydelserna, är det nödvändigt att ha sådan kunskap om världen och samhället. Dessutom är denna kunskap ibland också nödvändig när man löser syntaktiska tvetydigheter och när man analyserar anafora och katafora .

Uppgiftsberoende

För det femte är en permanent uppgiftsoberoende (uppgiftsoberoende) uppsättning metoder inte meningsfull, med tanke på att tvetydigheten i ordet mus (djur och datorenhet), till exempel, inte påverkar resultatet av engelsk-ryska och ryska- Engelsk översättning överhuvudtaget (eftersom båda dessa betydelser är förkroppsligade i samma ord på båda språken), men det påverkar starkt informationshämtning. Det motsatta exemplet kan också ges: när vi översätter ordet 'flod' från engelska till franska måste vi veta vad ordet betyder ('fleuve' är en flod som rinner ut i havet, och 'rivière' är en flod som rinner ut i en annan flod). Som ett resultat kräver olika problem olika algoritmer - så om någon bra lexikal disambigueringsalgoritm utvecklas är det omöjligt att vara helt säker på att den passar alla problem.

Differentiering av ordens betydelser

För det sjätte tar forskare upp frågan om möjligheten av en diskret representation av ett ords betydelse. Till och med själva termen " betydelse av ett ord " är ganska allmänt och kontroversiellt. De flesta håller med när man arbetar med generaliserade kunskapssystem med hög grad av ordhomografi, men i takt med att nivån minskar och ordböckerna blir mer detaljerade finns det ett stort antal avvikelser. Till exempel, vid Senseval-2-konferensen, som använde detaljerade system, kom de mänskliga annotatorerna överens endast 85 % av gångerna [11] .

Ordens betydelser är mycket flexibla, ganska föränderliga och extremt kontextuella, och ibland till och med kontextuellt beroende, så de är inte alltid strikt uppdelade i flera underbetydelser [12] . Lexikografer möter ofta alltför breda och semantiskt överlappande delbetydelser i texter, och standardbetydelserna av ord måste ofta korrigeras, utvidgas och försnävas på de mest bisarra och oväntade sätt. Till exempel, i denna situation "barn springer till sina mödrar", används ordet "barn" samtidigt i två betydelser: de är båda sina föräldrars barn och bara barn. En lexikografs uppgift är att analysera en enorm mängd texter och material och beskriva hela möjliga betydelser av ett ord. Det är dock fortfarande okänt om detta tillvägagångssätt är tillämpligt inom beräknings- och beräkningslingvistik, eftersom lexikografernas beslut fattas till förmån för fullständigheten av de beskrivna betydelserna, och inte tillämpbarheten av informationen som erhålls vid textbehandling.

Nyligen har ett problem som kallas lexikal substitution föreslagits som en lösning på problemet med att differentiera betydelsen av ord [13] . Dess betydelse är att ersätta ordet med ett annat som behåller betydelsen av det gamla i detta sammanhang.  

Problemets relevans, möjliga tillämpningar

Det är ett välkänt faktum att resultatet av processen inte bara beror på metodernas innovationsförmåga och effektivitet, utan också på de olika inställningarna/egenskaperna för uppgiften och kraven för upplösningsprocessen (till exempel differentieringen av ordets betydelser, egenskaperna hos utvärderingen av resultat, disambigueringstäckningen etc.). Det är också viktigt att ett stort antal NLP-fält kan dra nytta av resultaten av WSD.

Informationshämtning

I informationshämtningssystem - om man, när man söker efter en fråga, ska utesluta de dokument där något av orden i frågan används i en annan betydelse som användaren för närvarande är intresserad av, då kan frågeresultatens relevans vara ökade.

De allra första verken som undersökte möjligheten att använda WSD inom området för informationssökning visade ingen ökning av söknoggrannheten. Emellertid 1994 fann Sanderson [14] att förbättringar endast kan upptäckas om disambigueringseffektiviteten överstiger 90 %, vars allmänna giltighet diskuteras. Och 1995 visade Schutze och Pedersen [15] , vilket visade att med ovanstående effektivitet kan en sökningsförbättring på 4 % erhållas. Stokey visade dock att användningen av WSD kan ge, om än liten – i genomsnitt 1,73 %, resultat även med en lägre effektivitet på WSD (62,1 %) [16] .

Maskinöversättning

I maskinöversättningssystem minskar bristen på tillförlitliga mekanismer för att känna igen betydelsen av ett ord avsevärt kvaliteten på översättningen, eftersom ordet inte alltid entydigt översätts till ett annat språk. Och att automatiskt bestämma den korrekta översättningen beroende på sammanhanget är en mycket svår uppgift. Lexikal disambiguering har länge uppfattats som en stor utmaning för att uppnå nästan perfekt maskinöversättning - dessa tankar bygger på idén att WSD inte kan låta bli att förbättra översättningssystemen när det gäller att välja rätt värdekandidater för översättning. Detta område har inte utforskats så mycket som det behöver vara, på grund av de traditionella mindre effektiva fördefinierade vokabulärdatabaserna ( eng.  sense inventory ) som länge har blivit traditionella .

Extrahera information

Inom specifika områden är problemen med att lösa begrepp som är specifika för dem av största intresse: till exempel inom det medicinska området kan det vara användbart att definiera namnen på läkemedel i texten, medan det inom bioinformatik är nödvändigt att lösa tvetydigheter i namngivningen av gener och proteiner - denna process har kallats Information Extraction. Det inkluderar sådana uppgifter som namngivna enheter ( eng.  named-entity recognition ) (NER), akronymexpansion (till exempel Ryssland - Ryska federationen) och andra - allt detta kan betraktas som en upplösningsuppgiftspolysemi, även om detta är en ny och ännu inte riktigt utforskad riktning.

Innehållsanalys

Innehållsanalys och identifiering av huvuddelarna i texten i termer av idéer, teman och liknande kan ha stor nytta av WSD. Till exempel klassificeringen av texter (bloggar), tilldelningen av taggar till artiklar eller blogginlägg , eller fastställandet av relevanta (kanske semantiskt) kopplingar mellan dem, eller (semantisk) analys av sociala nätverk , som har blivit mer och mer aktiv på senare tid. Detta område är det nyaste, okända av alla ovanstående.

Andra områden

Huvudtyper av metoder

Som alltid, i naturlig språkbehandling, finns det två tillvägagångssätt: djupt och ytligt.

Tillvägagångssätt som tillhör den första kategorin innebär tillgång till den så kallade världskunskapen (världskunskap eller commonsense kunskapsbas). Att till exempel veta att "vilken livlös, materiell sak kan vara grön i betydelsen färg, men inte kan vara grön i betydelsen oerfarenhet" gör det möjligt att avgöra i vilken mening ordet "grönt" används i ett givet sammanhang. Sådana tillvägagångssätt är inte så effektiva i praktiken, eftersom en sådan klass av kunskap om världen, även om det är möjligt att lagra den i ett datorvänligt format, täcker mycket små [22] områden av våra liv och är inte helt tillämplig på alla studier. Jag måste säga att det här tillvägagångssättet inte heller alltid fungerar, till exempel i meningen "Regissören var så grön", med hjälp av kunskap är det omöjligt att avgöra, i det här fallet är regissören grön för att han blev grön eller för att han är oerfaren - ofta kan detta bara bestämmas utifrån sammanhanget, men utifrån hela textens logik och mening.

Inom beräkningslingvistik finns det också en gammal tradition av att tillämpa dessa metoder i termer av programkunskap, och det är ofta ganska svårt att avgöra om denna kunskap är språklig eller kunskap om världen ( engelska  Commonsense knowledge base ). Det första försöket gjordes av Margaret Masterman och hennes kollegor vid Cambridge Language Research Unit i England på 1950-talet: de använde Rogers synonymordbokdata och numrerade sökord . ) som indikatorer på ämnen och analyserade upprepningar i texten med hjälp av den uppställda skärningsalgoritmen. Detta experiment var inte särskilt framgångsrikt [23] , men det hade ett starkt inflytande på efterföljande arbete, särskilt Yarovkskys arbete på 1990-talet med att optimera tesaurusmetoden med hjälp av en övervakad inlärningsmaskin.   

Yttillvägagångssätt försöker inte förstå texten, de förlitar sig bara på analysen av närliggande ord, till exempel: om orden "hav" eller "fiske" finns bredvid ordet "bas", troligen att det i det här fallet finns är en mening i biologisk mening. Dessa regler kan extraheras automatiskt med hjälp av en korpus av texter med taggade ordbetydelser. Detta tillvägagångssätt, även om det inte täcker det föregående när det gäller kraft, överträffar det lätt i praktiken. Det finns dock alltid fallgropar, som i meningen "Hundarna skäller på trädet", som innehåller orden "träd" och "hundar" bredvid ordet "skälla".

Det finns fyra huvudsakliga metoder för disambiguering:

Kunskapsbaserade metoder

Leskmetoden [24]  är en produktiv metod baserad på användning av ordförrådskunskap. Den bygger på hypotesen att de ord som står bredvid varandra i texten är relaterade till varandra och detta samband kan observeras i definitionerna av ord och deras betydelser. Två (eller flera) ord kan vara nära om båda har det värdepar med störst överlappning av ord i deras definitioner i ordboken. Till exempel, frasen "kotte", i definitionerna av båda i en av betydelserna, finns det ord som "städsegrön" och "träd". Som ett alternativ till den tidigare metoden kan du också använda det globala förhållandet mellan dessa ord genom att beräkna den semantiska närheten för varje värdepar i WordNet .

Som ett alternativ till ovanstående metoder kan du använda den allmänna semantiska likheten ( engelska  semantisk likhet ) av betydelsen av ord, baserat på WordNet 'e. Grafbaserade metoder baserade på spridningsaktivering har också använts med viss framgång: några av dem har visat en precision som är jämförbar [25] med övervakade inlärningsmetoder, och ibland bättre än [5] [26] inom vissa områden .  Det har också nyligen visat sig [27] att även de enklaste metoderna baserade på mått på grafkoppling (som graden/valensen för hela grafen) kan visa höga resultat i närvaro av en rik lexikal bas.

Användningen av så kallade styrningsmodeller ("selektionspreferenser" eller "selektionsbegränsningar") kan också vara mycket användbar. Genom att till exempel använda vetskapen om att ordet "bas" i betydelsen fisk ofta förekommer med ordet "laga" eller "äta", kan vi lösa tvetydigheten i en mening som "Jag lagar bas". Men att skapa sådan kunskap om världen är extremt arbetskrävande och nästan omöjligt.

Övervakade undervisningsmetoder

Alla övervakade inlärningsmetoder är baserade på antagandet att sammanhanget för ordet vi överväger ger tillräckligt med information för att beräkna betydelsen i vilken det tillämpas i detta fall (och därför är kunskap som erhållits från ordböcker och synonymordböcker avskuren som överflödig). Alla övervakade inlärningsmodeller har tillämpats på WSD -problemet , inklusive relaterade tekniker som variabelval , parameteroptimering och ensembleinlärning . Stöd för vektormaskiner och instansbaserad inlärning har visat sig vara några av de mest effektiva metoderna som finns tillgängliga idag, kanske för att de kan hantera multiparameteregenskaperna hos ord och sammanhang. Ovanstående metoder har dock som en flaskhals kravet på att ha en enorm mängd manuellt uppmärkta texter för utbildning, vilket, som redan nämnts, är mödosamt och dyrt. Återigen uppstår problemet med att äga sådana märkta skrov.   

Delvis övervakade metoder

Bootstrapping -metoden [28] är en vanlig metod för iterativ inlärning och utvärdering av en klassificerare för att öka dess effektivitet. Algoritmen börjar med en liten mängd frödata för varje ord: antingen ett litet antal manuellt inmatade exempel på sammanhang, eller ett par omisskännliga regler för att bestämma betydelsen av ett ord (till exempel ordet "spela" i sammanhanget av ordet "bas" betyder nästan alltid att ordet är avsett i musikalisk mening). Dessa data används för att träna klassificeraren med någon av ovanstående övervakade inlärningsmetoder. Sedan appliceras klassificeraren på en uppsättning redan omärkta texter för att extrahera ett stort träningsprov, som bara inkluderar "pålitliga" sammanhang. Processen upprepas iterativt: varje nästa klassificerare tränas på motsvarande större uppsättning sammanhang - och upprepas tills hela korpusen är täckt eller tills det maximala antalet iterationer har uppnåtts.

En annan metod använder stora volymer omärkt text för att få information om ordsamförekomst, vilket i hög grad kan komplettera vår data. En väljusterad tvåspråkig korpus kan också användas för att lösa tvetydighet över flera språk, eftersom ett polysemantiskt ord på ett språk alltid översätts till ett annat språk beroende på dess betydelse i vilket det används. Denna metod kan i viss mening också betraktas som en metod för partiellt lärande.

Alla ovanstående tekniker kan göra det möjligt för övervakade inlärningsmetoder att anpassas till andra områden.

Oövervakade inlärningsmetoder

Denna typ av metoder är en av de svåraste WSD-uppgifterna. Huvudantagandet för denna metod är påståendet: "liknande betydelser förekommer i liknande sammanhang" och därmed kan de extraheras från texten med hjälp av klustring, med hjälp av ett visst mått av likheter mellan sammanhang [29] . Sedan kan nya sammanhang tilldelas ett av de närmaste klustren. Metodens prestanda är förvisso lägre än andra metoder, men jämförelsen är något problematisk på grund av behovet av att projicera de resulterande klustren på de värden som finns tillgängliga i ordboken. Om projektion inte krävs kan uppskattningar av klustring (inklusive entropi och renhet) göras. Forskare har stora förhoppningar om att oövervakade inlärningsmetoder kan hjälpa till att övervinna bristerna med kunskapsinhämtning , eftersom de inte kräver alltför mödosamma uppgifter med syntaktisk och semantisk uppmärkning av hela korpusen.  

Andra metoder

Det finns även andra metoder som bygger på helt andra principer än ovan:

Lokala frågor och resultat

Flaskhalsen för kunskapsinhämtning ärdet största hindret för att lösa tvetydighetsproblemet .  Oövervakade inlärningsmetoder bygger på kunskap som knappast finns i elektroniska ordböcker och andra språkliga elektroniska kunskapssystem. Övervakade inlärningsmetoder, å andra sidan, förlitar sig på förekomsten av en manuellt kommenterad korpus, vars existens är tekniskt möjlig endast för en liten uppsättning ord för teständamål, vilket gjordes för Senseval.

Därför är en av de mest uppmuntrande trenderna användningen av Internet som en korpus för att automatiskt få lexikal information [36] . WSD har traditionellt sett uppfattats som ett sätt att förbättra resultat inom områden som informationshämtning (IR). I det här fallet är dock det omvända också sant: sökmotorer har tillräckligt enkla och snabba möjligheter för att framgångsrikt bryta internet för användning i WSD. Därför provocerade problemet med att erhålla kunskap uppkomsten av vissa metoder för att erhålla den:

Externa kunskapskällor

Kunskap är en av nycklarna till disambigueringsupplösning: den tillhandahåller de data som själva upplösningsprocessen bygger på. Dessa data kan vara både textkorpora och ordböcker, tesuruser, ordlistor, ontologier: [37] [38] [39]

Strukturerade källor

Ostrukturerade källor

Utvärdering och jämförelse av metoder, Senseval-konferens

Att testa och jämföra metoder är inte en trivial uppgift på grund av skillnader i olika testuppsättningar, avkänningsinventeringar och använda datakällor. Innan speciella händelser skapades för att jämföra system jämfördes de manuellt, på sina egna, ofta små uppsättningar data. För att testa sin algoritm måste utvecklarna faktiskt lägga tid på att manuellt markera all användning av ord. Och det är omöjligt att jämföra samma metoder även på samma texter om de använder olika system för ordtolkning.

Internationella konferenser som jämför WSD-system har anordnats för att "kombinera" och jämföra metoder. Senseval (nu omdöpt till Semeval ) är en internationell konferens som jämför lexikaliska disambigueringssystem, hållen vart tredje år sedan 1998: Senseval-1 (1998), Senseval-2 (2001), Senseval-3 (2004), och deras logiska efterföljare till SemEval , som helt var tillägnad WSD-uppgiften och hölls en gång, 2007. Hennes uppgifter inkluderar att organisera seminarier och workshops, förbereda och markera korpus manuellt för systemtestning, samt jämföra algoritmer av olika typer (“all-words” och “lexical sample” WSD, annotated and non-annotated palgorithms) och studiet av sådana deluppgifter som semantisk rollmärkning , gloss WSD , lexical substitution , etc. Som en del av ovanstående aktiviteter gjordes jämförelser av WSD-system också inom ramen för inte bara det engelska språket. Men inte ett enda språk från den slaviska gruppen var närvarande vid evenemangen.

Val av utvärderingsmodeller

Ordets betydelsesystem . Under de första konferenserna, som system av ordbetydelser (ordböcker, lexikaliska databaser), antingen föga kända tidigare otillgängliga (till exempel HECTOR-projektet) eller små, små, ofullständiga versioner av ett riktigt komplett system som krävdes i tävlingen används.. Vanligtvis var båda otillräckligt detaljerade och differentierade (eng. grovkorniga), men de valdes för att undvika att använda de mest populära och detaljerade (eng. finkorniga) exemplen (till exempel WordNet ), eftersom detta skulle göra experimentet ”orent”, eftersom dessa kunskapsbaser redan upprepade gånger ”belysts” i olika studier och bedömningar. Det märktes att resultaten var helt olika för mer detaljerade, så det beslöts att testa algoritmerna på båda sensorinventeringarna.

En uppsättning ord som ska kontrolleras . Jämförelse av disambiguationsmetoder är också uppdelad i två typer beroende på antalet ord som ska kontrolleras: lexikal polysemiupplösning av en viss uppsättning ord (oftast flera dussin) och lexikal polysemiupplösning av alla ord i texten. Deras skillnad ligger i mängden dataanalys och bearbetning: uppgiften "alla-ord" ("all-ord-text") involverar bearbetning av alla ord som finns i texten för tvetydighet (absolut alla ord i korpusen måste lösas ), uppgiften "lexical sample" ("begränsad uppsättning") är att endast tillåta målord definierade i förväg och placerade i vår korpus. Den första typen är tänkt att vara en mer realistisk uppskattning, men mycket mer mödosam när det gäller att verifiera resultaten. På grund av svårigheterna med att testa den andra genomfördes endast tester vid de första konferenserna testset, men båda inkluderades senare i testningen.

I fallet med uppgiften "begränsad uppsättning ord" var arrangörerna tvungna att välja just de nyckelord som systemen skulle testas på. En kritik av aktiviteterna som ägde rum före Senseval var att dessa prover från uppsättningen valdes efter försöksledarnas infall. På Senseval'e försökte man undvika detta genom att välja godtyckliga ord, indelade i grupper efter orddelar, frekvens och grad av tvetydighet. Det fanns också en hel del kontroverser angående inkluderingen av problemet med att bestämma del av tal i WSD-programmet, så arrangörerna beslutade att inkludera både tydligt markerade delar av tal och ett visst antal obestämda delar i urvalet av ord.

Corps . Det är nödvändigt att klargöra vad som är markerad text och vad som är omärkt text. En otilldelad korpus är i huvudsak en massa vanliga texter som innehåller det erforderliga antalet omnämnanden av ord som behöver "lösas". Uppmärkt är samma samling texter, men med den skillnaden att alla nämnda ord innehåller information tillskriven (till exempel som en tagg eller annan metainformation) om innebörden av de ord som används i dessa sammanhang.

Både uppmärkta texter (övervakade lärsystem) och omärkta texter (oövervakade lärsystem) kan fungera som utbildningsmaterial för våra system för att lösa lexikal polysemi. Denna process går till så här: flera lingvister-lexikografer går igenom hela texten och tilldelar i enlighet med meningslexikonet metainformation om betydelsen av de ord som används i dessa sammanhang till alla ord från ett givet urval av ord som testats för polysemi. Sedan görs för varje ord ett slags kvorum utifrån de beslut som fattas av lexikografer och ett beslut fattas om i vilken betydelse det används här, varefter de mottagna taggarna läggs till i den slutliga versionen av texten; med andra ord, all användning av de ord vi har valt kompletteras med nödvändig metainformation.

Sedan delas kroppen i tre delar. Den första, den så kallade torrkörningsfördelningen (eng. "preliminär körning") gör det möjligt för team att justera och anpassa sina program till typen och strukturen av informationen som tillförs indata; innehåller den minsta nödvändiga informationen.

Den andra delen kallas en träningsfördelning , som innehåller ordboksposter och en korpus med metainformation om betydelsen av målord), som låter dig träna tävlande program för att korrekt välja rätt betydelser av ord; den ges till alla lag direkt efter den preliminära körningen. Antalet sammanhang som behövs för ord kan variera ganska mycket (från några få till fler än 1000) och beror på antalet tillgängliga sammanhang. Sedan kommer träningsstadiet.

Den sista delen, kallad utvärderingsfördelningen , utan metainformation om betydelsen av målorden, tillgänglig efter avslutad träningsprogramm, låter dig beräkna algoritmernas noggrannhet. Varje sammanhang har annoterats manuellt av minst tre personer, men denna metainformation har inte inkluderats i den spridda informationen eftersom det är den som verifieras. Alla program som passerade genom detta prov behövde för varje sammanhang beräkna den mest sannolika betydelsen av ordet som används (eller en lista med värden med motsvarande sannolikheter); efter att ha skickat uppgifterna till arrangörerna får de automatiskt resultaten genom att jämföra med sina egna (eftersom utvärderingsprovet, såväl som utbildningen, innehåller markerad användning av ord).

Grupper och baslinjer . Det bör noteras att alla algoritmer fungerar olika och använder olika informationskällor, så de delades alla in i grupper enligt textbehandlingsmetoden: övervakade inlärningsmetoder och oövervakade inlärningsmetoder. För jämförelse med redan kända algoritmer (kallade startpunkter - baslinjer ) publicerades även deras resultat, till exempel alla möjliga varianter av Lesk-algoritmen .

Dessutom, eftersom WSD-uppgiften kräver en ordbok över värderingar och en korpus , var arrangörerna tvungna att välja några av de befintliga för projektet. WordNet och SemCor är de mest populära exemplen på ovanstående nödvändiga komponenter, men deras användning skulle göra experimentet orent, eftersom dessa kunskapsbaser redan upprepade gånger har "markerats" i olika studier och bedömningar, därför är ofullständiga versioner som tidigare inte var tillgängliga eller egentillverkade av arrangörerna väljs vanligtvis ut för att testa båda sakerna (till exempel på Senseval-1, båda tillhandahölls av HECTOR-projektet [41] ).

Algoritmers noggrannhet . När man utvärderar nästan vilken klassificeringsalgoritm som helst för alla objekt, används de två vanligaste bedömningsmåtten - noggrannhet och återkallelse ( eng.  Precision and recall ):

Men om systemet kommenterar varje ord eller resultatet beräknas för alla klasser samtidigt, är precision och återkallelse samma värde - det kallas beräkningarnas noggrannhet beräkningarnas noggrannhet ( eng.  Accuracy ). Denna modell har utökats för användning när algoritmer producerar en lista med värden med sina respektive sannolikheter.

Resultat och funktioner

Senseval-verkstäderna är det bästa exemplet för att lära sig de allra bästa resultaten från WSD-system och framtida forskningsriktningar inom området. Det finns vissa slutsatser som kan dras genom att analysera och sammanfatta de senare konferenserna:

För att förstå det allmänna tillståndet på området och den nivå som nås av de bästa disambigueringssystemen, är det nödvändigt att analysera och noggrant studera de bästa resultaten och deras egenskaper:

Anteckningar

  1. Anna A. Zaliznyak. POLYSEMINERINGSFENOMEN OCH SÄTT FÖR DESS BESKRIVNING. Språkvetenskapliga frågor. - M., 2004. - Nr 2. - S. 20-45
  2. W. Weaver. 1949. Översättning Arkiverad 24 juli 2011 på Wayback Machine . I maskinöversättning av språk: fjorton uppsatser, red. av Locke, WN och Booth, AD Cambridge, MA: MIT Press.
  3. Y. Bar-Hillel, Språk och information (Reading, Mass.: Addison-Wesley, 1964), s. 174-179.
  4. Mark Johnson, How the Statistical Revolution Changes (Computational) Linguistics, ( http://www.aclweb.org/anthology/W/W09/W09-0103.pdf Arkiverad 14 april 2015 på Wayback Machine )
  5. 1 2 3 R. Navigli, K. Litkowski, O. Hargraves. 2007. SemEval-2007 Task 07: Coarse-grained English All-Words Task Arkiverad 18 mars 2012 på Wayback Machine . Proc. av Semeval-2007 Workshop (SEMEVAL), i det 45:e årsmötet för Association for Computational Linguistics (ACL 2007), Prag, Tjeckien, s. 30-35.
  6. 1 2 S. Pradhan, E. Loper, D. Dligach, M. Palmer. 2007. SemEval-2007 Uppgift 17: Engelska lexikaliska exempel, SRL och alla ord Arkiverad 18 mars 2012 på Wayback Machine . Proc. av Semeval-2007 Workshop (SEMEVAL), i det 45:e årsmötet för Association for Computational Linguistics (ACL 2007), Prag, Tjeckien, s. 87-92.
  7. Lynette Hirschmann, The evolution of evaluation (1998) - Computer Speech and Knowledge
  8. C. Fellbaum 1997. Analys av en handtaggningsuppgift. I Proc. av ANLP-97 Workshop om att tagga text med lexikalisk semantik: Varför, vad och hur? Washington D.C., USA.
  9. B. Snyder och M. Palmer. 2004. Den engelska all-words-uppgiften Arkiverad 29 juni 2011 på Wayback Machine . I Proc. av den 3:e internationella workshopen om utvärdering av system för semantisk analys av text (Senseval-3), Barcelona, ​​​​Spanien, s. 41-43.
  10. Douglas Lenat. Datorer kontra sunt förnuft . Tillträdesdatum: 10 december 2008. Arkiverad från originalet den 27 juli 2013. (GoogleTachTalks på youtube)
  11. P. Edmonds. 2000. Designa en uppgift för SENSEVAL-2 Arkiverad 28 september 2011 på Wayback Machine . Tech. notera. University of Brighton, Brighton. Storbritannien
  12. A. Kilgarriff. 1997. Jag tror inte på ordsinne Arkiverad 24 juli 2011 på Wayback Machine . Comput. mänsklig. 31(2), sid. 91-113.
  13. D. McCarthy, R. Navigli. 2009. The English Lexical Substitution Task Arkiverad 9 juli 2009 på Wayback Machine , Language Resources and Evaluation, 43(2), Springer, pp. 139-159.
  14. SANDERSON, M. 1994. Disambiguation och informationssökning. In Proceedings of the Special Interest Group on Information Retrieval (SIGIR, Dublin, Irland). 142-151.
  15. SCHUTZE, H. AND PEDERSEN, J. 1995. Informationsinhämtning baserad på ordsinne. I Proceedings of SDAIR'95 (Las Vegas, NV). 161-175.
  16. STOKOE, C., OAKES, MJ, AND TAIT, JI 2003. Ordbetydande disambiguation i informationsinhämtning återbesökt. I samband med den 26:e årliga internationella ACM SIGIR-konferensen om forskning och utveckling inom informationssökning (Toronto, Onto., Kanada). 159-166.
  17. YAROWSKY, D. 1994. Beslutslistor för lexikal tvetydighetsupplösning: Tillämpning på accentåterställning på spanska och franska. I protokollet från det 32:a årsmötet i Association for Computational Linguistics (Las Cruces, NM). 88-95.
  18. RICHARDSON, SD, DOLAN, WB, OCH VANDERWENDE, L. 1998. Mindnet: Inhämta och strukturera semantisk information från text. I Proceedings of the 17th International Conference on Computational Linguistics (COLING, Montreal, PQ, Kanada). 1098-1102.
  19. NAVIGLI, R., VELARDI, P., OCH GANGEMI, A. 2003. Ontologiinlärning och dess tillämpning på automatiserad terminologiöversättning. IEEE Intel. Syst. 18:1, 22-31.
  20. NAVIGLI, R. OCH VELARDI, P. 2004. Att lära sig domänontologier från dokumentlager och dedikerade webbplatser. Comput. Långa. 30, 2, 151-179.
  21. CIMIANO, P. 2006. Ontologiinlärning och befolkning från text: Algoritmer, utvärdering och tillämpningar. Springer, New York, NY.
  22. Lenat, Douglas; Guha, R.V. (1989), Building Large Knowledge-Based Systems, Addison-Wesley
  23. Y. Wilks, B. Slator, L. Guthrie. 1996. Elektriska ord: ordböcker, datorer och betydelser. Cambridge, MA: MIT Press.
  24. Michael Lesk, Automatisk avkänningsdisambiguation med hjälp av maskinläsbara ordböcker: hur man skiljer en kotte från en glassstrut, ACM Special Interest Group for Design of Communication Proceedings of the 5th annual international conference on system documentation, sid. 24-26, 1986. ISBN 0-89791-224-1
  25. R. Navigli, P. Velardi. 2005. Strukturella semantiska sammankopplingar: en kunskapsbaserad metod för disambiguering av ordförnimmelse Arkiverad 9 juli 2009 på Wayback Machine . IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 27(7), s. 1063-1074.
  26. E. Agirre, O. Lopez de Lacalle, A. Soroa. 2009. Kunskapsbaserad WSD på specifika domäner: presterar bättre än Generic Supervised WSD Arkiverad 24 juli 2011 på Wayback Machine . I Proc. av IJCAI, sid. 1501-1506.
  27. R. Navigli, M. Lapata. En experimentell studie av grafisk anslutning för oövervakad disambiguering av ordavkänning Arkiverad 14 december 2010 på Wayback Machine . IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 32(4), IEEE Press, 2010, s. 678-692.
  28. D. Yarowsky. 1995. Oövervakad disambiguation av ordinnehåll som konkurrerar med övervakade metoder Arkiverad 7 juni 2010 på Wayback Machine . I Proc. av Föreningen för datorlingvistiks 33:e årsmöte, s. 189-196.
  29. H. Schütze. 1998. Automatisk ordinnehållsdiskriminering Arkiverad 18 mars 2012 på Wayback Machine . Computational Linguistics, 24(1), pp. 97-123.
  30. MCCARTHY, D., KOELING, R., WEEDS, J., AND CARROLL, J. 2004. Att hitta dominerande sinnen i omärkt text. I samband med det 42:a årsmötet i Association for Computational Linguistics (Barcelona, ​​Spanien). 280-287.
  31. MCCARTHY, D., KOELING, R., WEEDS, J., AND CARROLL, J. 2007. Oövervakat förvärv av dominerande ordsinne. Comput. Långa. 33, 4, 553-590.
  32. MOHAMMAD, S. AND HIRST, G. 2006. Fastställande av ordets betydelse dominans med hjälp av en synonymordbok. I Proceedings of the 11th Conference on European Chapter av Association for Computational Linguistics (EACL, Trento, Italien). 121-128.
  33. LAPATA, M. OCH KELLER, F. 2007. Ett tillvägagångssätt för informationssökning för avkänningsrankning. I Proceedings of the Human Language Technology Conference av North American Chapter av Association for Computational Linguistics (HLT-NAACL, Rochester, NY). 348-355.
  34. GLIOZZO, A., MAGNINI, B., AND STRAPPARAVA, C. 2004. Oövervakad domänrelevansuppskattning för disambiguation av ordbetydelse. I Proceedings of the 2004 Conference on Empirical Methods in Natural Language Processing (EMNLP, Barcelona, ​​​​Spanien). 380-387.
  35. BUITELAAR, P., MAGNINI, B., STRAPPARAVA, C., AND VOSSEN, P. 2006. Domänspecifik WSD. In Word Sense Disambiguation: Algorithms and Applications, E. Agirre och P. Edmonds, Eds. Springer, New York, NY, 275-298.
  36. KILGARRIFF, A. OCH GREFENSTETTE, G. 2003. Introduktion till specialnumret på webben som korpus. Comput. Långa. 29, 3, 333-347.
  37. E IDE, N. AND VE´RONIS, J. 1998. Disambiguation av ordbetydelse: The state of the art. Comput. Långa. 24:1, 1-40.
  38. LITKOWSKI, KC 2005. Beräkningslexikon och ordböcker. I Encyclopedia of Language and Linguistics (2:a upplagan), KR Brown, Ed. Elsevier Publishers, Oxford, Storbritannien, 753-761.
  39. AGIRRE, E. AND STEVENSON, M. 2006. Kunskapskällor för WSD. In Word Sense Disambiguation: Algorithms and Applications, E. Agirre och P. Edmonds, Eds. Springer, New York, NY, 217-251.
  40. MAGNINI, B. AND CAVAGLIA, G. 2000. Integrering av ämnesfältkoder i WordNet. I samband med den andra konferensen om språkresurser och utvärdering (LREC, Aten, Grekland). 1413-1418.
  41. 1. Adam Kilgarriff och Joseph Rosenzweig, English Senseval: Rapport och resultat maj-juni, 2000, University of Brighton
  42. Rada Mihalcea, Timothy Chklovski, Adam Kilgarriff. The Senseval-3 engelska lexical sample task, 2004. sid. 2
  43. Loukachevitch N., Chuiko D. Tesaurusbaserad disambiguering av ordförnimmelser, 2007

Föreslagen läsning