Distributiv semantik

Distributiv semantik är ett språkvetenskapligt område som handlar om att beräkna graden av semantisk likhet mellan språkliga enheter baserat på deras fördelning (fördelning) i stora uppsättningar av språkliga data ( textkorpora ).

Varje ord tilldelas sin egen kontextvektor . Uppsättningen vektorer bildar ett verbalt vektorrum .

Det semantiska avståndet mellan begrepp uttryckta i naturliga språkord beräknas vanligtvis som cosinusavståndet mellan ordutrymmesvektorer.

Historik

" Distributiv analys är en språkforskningsmetod baserad på studiet av miljön (distribution, distribution) av enskilda enheter i texten och använder inte information om den fullständiga lexikala eller grammatiska betydelsen av dessa enheter" [1] .

Inom ramen för denna metod tillämpas en ordnad uppsättning universella procedurer på texterna i det språk som studeras, vilket gör det möjligt att peka ut språkets huvudenheter (fonem, morfem, ord, fraser), klassificera dem och upprätta kompatibilitetsrelationer dem emellan.

Klassificeringen bygger på substitutionsprincipen: språkliga enheter tillhör samma klass om de kan förekomma i samma sammanhang.

Distributiv analys föreslogs av L. Bloomfield på 1920-talet. XX-talet och användes främst inom fonologi och morfologi.

3. Harris och andra representanter för deskriptiv lingvistik utvecklade denna metod i sina verk på 1930- och 1950-talen. XX-talet.

Liknande idéer lades fram av grundarna av den strukturella lingvistiken F. de Saussure och L. Wittgenstein.

Idén om kontextvektorer föreslogs av psykolingvisten Charles Osgood som en del av hans arbete med representation av ordbetydelser [2] .

De sammanhang där orden förekom fungerade som mätningar av flerbitsvektorer.

Som sådana sammanhang använde Osgoods verk antonyma adjektivpar (till exempel snabbt-långsamt ), för vilka undersökningsdeltagare betygsatte på en sjugradig skala.

Ett exempel på ett kontextuellt funktionsutrymme som beskriver innebörden av orden mus och råtta från Osgoods verk:

Termen kontextvektor introducerades av S. Gallant för att beskriva betydelsen av ord och lösa lexikal tvetydighet [3] .

Gallants arbete använde en mängd olika attribut som gavs av forskaren, såsom en person , en man , en bil , etc.

Ett exempel på ett kontextuellt särdrag som beskriver betydelsen av ordet astronom från Gallants verk:

Under de senaste två decennierna har metoden för distributiv analys i stor utsträckning tillämpats på studiet av semantik.

En distributiv-semantisk teknik och motsvarande mjukvara har utvecklats som gör att du automatiskt kan jämföra de sammanhang där de studerade språkenheterna förekommer och beräkna de semantiska avstånden mellan dem [4] .

Den distributiva hypotesen

Distributiv semantik bygger på den distributiva hypotesen : språkliga enheter som förekommer i liknande sammanhang har liknande betydelser [5] .

Psykologiska experiment bekräftade sanningen i denna hypotes. Till exempel, i ett av verken [6] ombads deltagarna i experimentet att uttrycka sin åsikt om synonymin i de ordpar som presenterades för dem. Undersökningsdata jämfördes sedan med de sammanhang där de studerade orden förekom. Experimentet visade en positiv korrelation mellan ordens semantiska närhet och likheten i de sammanhang där de förekommer.

Matematisk modell

Vektorrum från linjär algebra används som ett sätt att representera modellen . Information om spridningen av språkliga enheter presenteras i form av flersiffriga vektorer som bildar ett verbalt vektorrum. Vektorer motsvarar språkliga enheter (ord eller fraser), och dimensioner motsvarar sammanhang. Koordinaterna för vektorerna är siffror som visar hur många gånger ett givet ord eller en viss fras förekommer i ett givet sammanhang.

Ett exempel på ett ordvektorutrymme som beskriver de fördelande egenskaperna hos orden te och kaffe , där sammanhanget är grannordet:

Storleken på kontextfönstret bestäms av studiens mål [7] :

upprättande av syntagmatiska länkar −1-2 ord;
upprätta paradigmatiska kopplingar - 5-10 ord;
upprätta tematiska kopplingar - 50 ord eller mer.

Semantisk närhet mellan språkliga enheter beräknas som avståndet mellan vektorer. I forskning om distributiv semantik används oftast cosinusmåttet , vilket beräknas med formeln:

{\frac {\sum \limits _{{i=1}}^{{n}}{A_{i}\ gånger B_{i}}}{{\sqrt {\sum \limits _{{i=1 }}^{{n}}{(A_{i})^{2}}}}\ gånger {\sqrt {\sum \limits _{{i=1}}^{{n}}{(B_{ i})^{2}}}}}}

där och är två vektorer, avståndet mellan vilka beräknas. $A$ $B$

Efter en sådan analys blir det möjligt att identifiera de ord som i betydelse ligger närmast det studerade ordet.

Ett exempel på de ord som ligger närmast ordet katt (listan erhölls baserat på data från den ryska språkwebbkorpusen [8] , korpusen bearbetades av Sketch Engine- systemet [9] ):

I en grafisk form kan ord representeras som punkter på ett plan, medan de punkter som motsvarar ord som ligger nära i betydelse ligger nära varandra. Ett exempel på ett ordutrymme som beskriver ämnesområdet för superdatorer , från Heinrich Schutzes arbete [10] :

Modeller för distributiv semantik

Det finns många olika modeller av distributiv semantik, som skiljer sig åt på följande sätt:

kontexttyp: kontextstorlek, höger eller vänster kontext, rangordning;
kvantitativ bedömning av frekvensen av förekomst av ett ord i ett givet sammanhang: absolut frekvens, TF-IDF, entropi, gemensam information, etc.;
mått på avstånd mellan vektorer: cosinus, skalär produkt, Minkowski-avstånd, etc.;
metod för reduktion av matrisdimension: slumpmässig projektion, singularvärdesuppdelning, slumpmässig indexering, etc.

Följande distributiv-semantiska modeller är mest kända:

Dimensionsreduktion av vektorrum

När man använder distributiv-semantiska modeller i verkliga applikationer uppstår problemet att dimensionen av vektorer är för stor, vilket motsvarar ett stort antal sammanhang som presenteras i en textkorpus. Det finns ett behov av att tillämpa speciella metoder som kan minska dimensionen och glesheten i vektorrummet och samtidigt bevara så mycket information som möjligt från det ursprungliga vektorrummet. De resulterande komprimerade vektorrepresentationerna av ord i engelsk terminologi kallas ordinbäddningar .

Metoder för att minska dimensionen av vektorrum:

avlägsnande av vissa mätningar av vektorer i enlighet med språkliga eller statistiska kriterier;
singular värdenedbrytning ;
principal component method (PCA);
slumpmässig indexering [11] .

Prediktiva modeller för distributiv semantik

Ett annat sätt att få lågdimensionella vektorer är maskininlärning, i synnerhet artificiella neurala nätverk . När man tränar sådana prediktiva modeller (eng. predictive models) är målrepresentationen för varje ord också en komprimerad vektor av relativt liten storlek (eng. embedding ), för vilken likhet med grannvektorer maximeras under flera pass genom träningskorpusen . och likhet med ordvektorer minimeras, dess grannar som inte är [12] . Men till skillnad från traditionella räknemodeller finns det i detta tillvägagångssätt inget steg för att reducera vektordimensionen, eftersom modellen initialt initieras med vektorer av liten dimension (i storleksordningen flera hundra komponenter).

Sådana prediktiva modeller representerar naturlig språksemantik mer exakt än beräkningsmodeller som inte använder maskininlärning [13] .

De mest kända representanterna för detta tillvägagångssätt är algoritmerna Continuous Bag-of-Words (CBOW) och Continuous Skipgram , som först implementerades i verktyget word2vec , som introducerades 2013 [14] . Ett exempel på tillämpning av sådana modeller på det ryska språket presenteras på RusVectōrēs webbtjänst .

Applikationer

Distributiva semantiska modeller har funnit tillämpning i forskning och praktiska implementeringar relaterade till semantiska modeller för naturligt språk.

Distributiva modeller används för att lösa följande problem [15] :

avslöjar den semantiska närheten av ord och fraser [16] ;
automatisk klustring av ord i enlighet med graden av deras semantiska likhet;
automatisk generering av synonymordböcker och tvåspråkiga ordböcker [15] [17] ;
upplösning av lexikal tvetydighet;
förlängning av förfrågningar på grund av associativa länkar;
definition av ämnet för dokumentet;
klustring av dokument för informationssökning;
utvinning av kunskap från texter;
konstruktion av semantiska kartor över olika ämnesområden [7] ;
parafrasera modellering;
bestämning av tonen i uttalandet;
modellering av kompatibilitetsbegränsningar för ord [18] .

Program

Det finns flera programvaruverktyg för att forska om distributiv semantik med öppen källkod:

Se även

Anteckningar

↑ Yartseva, 1990 .
↑ Osgood et al., 1957 .
↑ Gallant, 1991 .
↑ Mitrofanova, 2008 .
↑ Sahlgren, 2008 .
↑ Rubenstein, Goodenough, 1965 .
↑ 1 2 Sharnin et al., 2013 .
↑ Rysk webbkorpus .
↑ Sketch Engine .
↑ Schutze, 1992 .
↑ Sahlgren, 2005 .
↑ Kutuzov och Andreev, 2015 .
↑ Baroni, Marco och Dinu, Georgiana och Kruszewski, tyska. Räkna inte, förutsäg! en systematisk jämförelse av kontexträkning vs. kontextförutsägande semantiska vektorer // Proceedings of the 52th Annual Meeting of Association for Computational Linguistics. - 2014. - Nr 1 . - S. 238-247 .
↑ Mikolov, Tomas och Chen, Kai och Corrado, Greg och Dean, Jeffrey. Effektiv uppskattning av ordrepresentationer i vektorutrymme // arXiv preprint arXiv:1301.3781. — 2013.
↑ 1 2 Morozova et al., 2014 .
↑ Klyshinsky et al., 2013 .
↑ Sahlgren, Karlgren, 2005 .
↑ Pekar, 2004 .

Litteratur

Schutze H. Dimensions of meaning // Proceedings of Supercomputing'92. - 1992. - S. 787-796 .
Sahlgren M. An Introduction to Random Indexing // Proceedings of the Methods and Applications of Semantic Indexing Workshop vid 7th International Conference on Terminology and Knowledge Engineering, TKE 2005: konferens. - 2005. Arkiverad 8 mars 2014.
Sahlgren M. The Word-Space Model: Använda distributionsanalys för att representera syntagmatiska och paradigmatiska relationer mellan ord i högdimensionella vektorrum (Ph.D. Thesis) . — Institutionen för lingvistik, Stockholms universitet, 2006. Arkiverad 10 december 2015 på Wayback Machine
Sahlgren M. Distributionshypotesen. Från sammanhang till mening (engelska) // Distributionsmodeller av lexikonet i lingvistik och kognitionsvetenskap (Specialutgåva av Italian Journal of Linguistics), Rivista di Linguistica : journal. - 2008. - Vol. 20 , nej. 1 . - S. 33-53 .
Sahlgren M., Karlgren J. Automatic Bilingual Lexicon Acquisition Using Random Indexing of Parallel Corpora // Journal of Natural Language Engineering, Special Issue on Parallel Texts : journal. - 2005. - Vol. 11 , iss. 3 . Arkiverad från originalet den 8 augusti 2017.
Gallant S. Kontextvektorrepresentationer för dokumenthämtning // Proceedings of AAAI Workshop on Natural Language Text Retrieval: konferens. — 1991.
Osgood C., Suci G., Tannenbaum P. The measurement of meaning (engelska) . — University of Illinois Press, 1957.
Rubenstein H., Goodenough J. Contextual correlates of synonymy (engelska) // Communications of the ACM : journal. - 1965. - Vol. 8 , iss. 10 . - s. 627-633 .
Mitrofanova O.A. Mätning av semantiska avstånd som ett problem inom tillämpad lingvistik // Strukturell och tillämpad lingvistik. Interuniversitetssamling: tidskrift. - Förlag vid St. Petersburg State University, 2008. - Utgåva. 7 . (ryska) (inte tillgänglig länk)
Sharnin M. M., Somin N. V., Kuznetsov I. P., Morozova Yu. I., Galina I. V., Kozerenko E. B. Statistiska mekanismer för bildandet av associativa porträtt av ämnesområden baserade på naturliga språktexter i stora volymer för kunskapsextraktionssystem // Informatik och dess tillämpningar: tidning. - 2013. - Vol. 7 , nr. 2 . - S. 92-99 . (ryska)
Morozova Yu. I., Kozerenko E. B., Sharnin M. M. Metod för att extrahera ord-för-ord översättningskorrespondenser från parallella texter med hjälp av distributiva semantiska modeller // Systems and means of informatics: journal. - 2014. - T. 24 , nr. 1 . (ryska)
Klyshinsky E. S., Kochetkova N. A., Logacheva V. K. Ordklustermetod som använder information om deras syntaktiska koherens . Nauchno-tekhnicheskaya informatsiya. Serie 2: Informationsprocesser och system: journal. - 2013. - Nr 11 . - S. 36-43 . (ryska) (inte tillgänglig länk)
Pekar V.I. Distributiv modell för kombinerbarhetsbegränsningar av verb // Proceedings of the International Seminar Dialogue 2004 on Computational Linguistics: Conference. – 2004. (ryska)
Linguistic Encyclopedic Dictionary / Yartseva V. N .. - M . : Soviet Encyclopedia, 1990. (ryska)
Russian Web Corpus (engelska) . Lexical Computing Ltd.. Hämtad 17 april 2014. (död länk)
Sketch Engine Corpus Manager . Lexical Computing Ltd. Hämtad 17 april 2014.
Kutuzov A., Andreev I. Texter in, betyder ut: neurala språkmodeller i semantisk likhetsuppgift för ryska (engelska) // Samling "Computational linguistics and intelligent technologys: Based on the material of the annual International Conference "Dialogue" (Moskva, 27–30 maj 2015)" : konferens. - 2015. - Vol. 21 , iss. 14 .