Distributiv semantik är ett språkvetenskapligt område som handlar om att beräkna graden av semantisk likhet mellan språkliga enheter baserat på deras fördelning (fördelning) i stora uppsättningar av språkliga data ( textkorpora ).
Varje ord tilldelas sin egen kontextvektor . Uppsättningen vektorer bildar ett verbalt vektorrum .
Det semantiska avståndet mellan begrepp uttryckta i naturliga språkord beräknas vanligtvis som cosinusavståndet mellan ordutrymmesvektorer.
" Distributiv analys är en språkforskningsmetod baserad på studiet av miljön (distribution, distribution) av enskilda enheter i texten och använder inte information om den fullständiga lexikala eller grammatiska betydelsen av dessa enheter" [1] .
Inom ramen för denna metod tillämpas en ordnad uppsättning universella procedurer på texterna i det språk som studeras, vilket gör det möjligt att peka ut språkets huvudenheter (fonem, morfem, ord, fraser), klassificera dem och upprätta kompatibilitetsrelationer dem emellan.
Klassificeringen bygger på substitutionsprincipen: språkliga enheter tillhör samma klass om de kan förekomma i samma sammanhang.
Distributiv analys föreslogs av L. Bloomfield på 1920-talet. XX-talet och användes främst inom fonologi och morfologi.
3. Harris och andra representanter för deskriptiv lingvistik utvecklade denna metod i sina verk på 1930- och 1950-talen. XX-talet.
Liknande idéer lades fram av grundarna av den strukturella lingvistiken F. de Saussure och L. Wittgenstein.
Idén om kontextvektorer föreslogs av psykolingvisten Charles Osgood som en del av hans arbete med representation av ordbetydelser [2] .
De sammanhang där orden förekom fungerade som mätningar av flerbitsvektorer.
Som sådana sammanhang använde Osgoods verk antonyma adjektivpar (till exempel snabbt-långsamt ), för vilka undersökningsdeltagare betygsatte på en sjugradig skala.
Ett exempel på ett kontextuellt funktionsutrymme som beskriver innebörden av orden mus och råtta från Osgoods verk:
Termen kontextvektor introducerades av S. Gallant för att beskriva betydelsen av ord och lösa lexikal tvetydighet [3] .
Gallants arbete använde en mängd olika attribut som gavs av forskaren, såsom en person , en man , en bil , etc.
Ett exempel på ett kontextuellt särdrag som beskriver betydelsen av ordet astronom från Gallants verk:
Under de senaste två decennierna har metoden för distributiv analys i stor utsträckning tillämpats på studiet av semantik.
En distributiv-semantisk teknik och motsvarande mjukvara har utvecklats som gör att du automatiskt kan jämföra de sammanhang där de studerade språkenheterna förekommer och beräkna de semantiska avstånden mellan dem [4] .
Distributiv semantik bygger på den distributiva hypotesen : språkliga enheter som förekommer i liknande sammanhang har liknande betydelser [5] .
Psykologiska experiment bekräftade sanningen i denna hypotes. Till exempel, i ett av verken [6] ombads deltagarna i experimentet att uttrycka sin åsikt om synonymin i de ordpar som presenterades för dem. Undersökningsdata jämfördes sedan med de sammanhang där de studerade orden förekom. Experimentet visade en positiv korrelation mellan ordens semantiska närhet och likheten i de sammanhang där de förekommer.
Vektorrum från linjär algebra används som ett sätt att representera modellen . Information om spridningen av språkliga enheter presenteras i form av flersiffriga vektorer som bildar ett verbalt vektorrum. Vektorer motsvarar språkliga enheter (ord eller fraser), och dimensioner motsvarar sammanhang. Koordinaterna för vektorerna är siffror som visar hur många gånger ett givet ord eller en viss fras förekommer i ett givet sammanhang.
Ett exempel på ett ordvektorutrymme som beskriver de fördelande egenskaperna hos orden te och kaffe , där sammanhanget är grannordet:
Storleken på kontextfönstret bestäms av studiens mål [7] :
Semantisk närhet mellan språkliga enheter beräknas som avståndet mellan vektorer. I forskning om distributiv semantik används oftast cosinusmåttet , vilket beräknas med formeln:
där och är två vektorer, avståndet mellan vilka beräknas.
Efter en sådan analys blir det möjligt att identifiera de ord som i betydelse ligger närmast det studerade ordet.
Ett exempel på de ord som ligger närmast ordet katt (listan erhölls baserat på data från den ryska språkwebbkorpusen [8] , korpusen bearbetades av Sketch Engine- systemet [9] ):
I en grafisk form kan ord representeras som punkter på ett plan, medan de punkter som motsvarar ord som ligger nära i betydelse ligger nära varandra. Ett exempel på ett ordutrymme som beskriver ämnesområdet för superdatorer , från Heinrich Schutzes arbete [10] :
Det finns många olika modeller av distributiv semantik, som skiljer sig åt på följande sätt:
Följande distributiv-semantiska modeller är mest kända:
När man använder distributiv-semantiska modeller i verkliga applikationer uppstår problemet att dimensionen av vektorer är för stor, vilket motsvarar ett stort antal sammanhang som presenteras i en textkorpus. Det finns ett behov av att tillämpa speciella metoder som kan minska dimensionen och glesheten i vektorrummet och samtidigt bevara så mycket information som möjligt från det ursprungliga vektorrummet. De resulterande komprimerade vektorrepresentationerna av ord i engelsk terminologi kallas ordinbäddningar .
Metoder för att minska dimensionen av vektorrum:
Ett annat sätt att få lågdimensionella vektorer är maskininlärning, i synnerhet artificiella neurala nätverk . När man tränar sådana prediktiva modeller (eng. predictive models) är målrepresentationen för varje ord också en komprimerad vektor av relativt liten storlek (eng. embedding ), för vilken likhet med grannvektorer maximeras under flera pass genom träningskorpusen . och likhet med ordvektorer minimeras, dess grannar som inte är [12] . Men till skillnad från traditionella räknemodeller finns det i detta tillvägagångssätt inget steg för att reducera vektordimensionen, eftersom modellen initialt initieras med vektorer av liten dimension (i storleksordningen flera hundra komponenter).
Sådana prediktiva modeller representerar naturlig språksemantik mer exakt än beräkningsmodeller som inte använder maskininlärning [13] .
De mest kända representanterna för detta tillvägagångssätt är algoritmerna Continuous Bag-of-Words (CBOW) och Continuous Skipgram , som först implementerades i verktyget word2vec , som introducerades 2013 [14] . Ett exempel på tillämpning av sådana modeller på det ryska språket presenteras på RusVectōrēs webbtjänst .
Distributiva semantiska modeller har funnit tillämpning i forskning och praktiska implementeringar relaterade till semantiska modeller för naturligt språk.
Distributiva modeller används för att lösa följande problem [15] :
Det finns flera programvaruverktyg för att forska om distributiv semantik med öppen källkod: