Ämnesmodellering är ett sätt att bygga en modell av en samling textdokument som avgör vilka ämnen varje dokument tillhör [1] .
Ämnesmodell ( engelsk topic model ) av en samling textdokument avgör vilka ämnen varje dokument tillhör och vilka ord (termer) som utgör varje ämne [2] .
Övergången från termernas utrymme till utrymmet för hittade ämnen hjälper till att lösa termernas synonymi och polysemi, samt att mer effektivt lösa sådana problem som tematisk sökning , klassificering , sammanfattning och anteckning av dokumentsamlingar och nyhetsflöden.
Ämnesmodellering, som en typ av statistisk modell för att hitta dolda ämnen som påträffas i en samling dokument, har hittat sin väg till områden som maskininlärning och naturlig språkbehandling . Forskare använder olika ämnesmodeller för att analysera texter, textarkiv av dokument, för att analysera förändringar i ämnen i uppsättningar av dokument . Intuitivt förstå att dokumentet hänvisar till ett visst ämne, i dokument som ägnas åt ett ämne, kan du hitta vissa ord oftare än andra. Till exempel: "hund" och "ben" förekommer oftare i dokument om hundar, "katter" och "mjölk" kommer att förekomma i dokument om kattungar, prepositionerna "och" och "in" kommer att förekomma i båda ämnena. Vanligtvis handlar ett dokument om flera ämnen i olika proportioner, så ett dokument där 10 % av ämnet är katter och 90 % av ämnet är hundar kan antas ha 9 gånger fler ord om hundar. Ämnesmodellering återspeglar denna intuition i en matematisk struktur som gör det möjligt, baserat på studiet av en samling dokument och studiet av frekvensegenskaperna för ord i varje dokument, att dra slutsatsen att varje dokument är en viss balans av ämnen.
De mest använda i moderna tillämpningar är tillvägagångssätt baserade på Bayesianska nätverk - probabilistiska modeller på riktade grafer . Probabilistiska ämnesmodeller är ett relativt ungt forskningsområde inom självlärande teori . En av de första föreslagna probabilistiska latenta semantiska analyserna (PLSA), baserad på principen om maximal sannolikhet , som ett alternativ till de klassiska metoderna för klustring , baserat på beräkning av avståndsfunktioner. Efter PLSA föreslogs den latenta Dirichlet-tilldelningsmetoden och dess många generaliseringar [3] .
Probabilistiska ämnesmodeller utför "mjuk" klustring, vilket gör att ett dokument eller en term kan relateras till flera ämnen samtidigt med olika sannolikheter. Probabilistiska ämnesmodeller beskriver varje ämne genom en diskret fördelning över en uppsättning termer, varje dokument genom en diskret fördelning över en uppsättning ämnen. Det antas att en samling av dokument är en sekvens av termer som väljs slumpmässigt och oberoende av en blandning av sådana distributioner, och uppgiften är att återställa komponenterna i blandningen från provet [4] .
Även om ämnesmodellering traditionellt har beskrivits och tillämpats i naturlig språkbehandling, har den också hittat sin väg till andra områden, såsom bioinformatik .
Den första beskrivningen av ämnesmodellering dök upp i ett papper från 1998 av Ragawan, Papadimitriou, Tomaki och Vempola [5] . Thomas Hofmann föreslog 1999 [6] probabilistisk latent semantisk indexering (PLSI). En av de vanligaste topiska modellerna är latent Dirichlet-placering (LDA), denna modell är en generalisering av probabilistisk semantisk indexering och utvecklades av David Blei , Andrew Ng och Michael Jordan ( engelska Michael I. Jordan ) [2002 . Andra ämnesmodeller tenderar att vara förlängningar av LDA, till exempel förbättrar placeringen av pachinko LDA genom att införa ytterligare korrelationskoefficienter för varje ord som utgör ett ämne.
Templeton granskade arbetet med ämnesmodellering inom humaniora, grupperat under synkrona och diakrona tillvägagångssätt [8] . Synkrona tillvägagångssätt lyfter fram ämnen någon gång i tiden, till exempel använde Jockers en ämnesmodell för att utforska vad bloggare skrev om på Digital Humanities Day 2010 [9] .
Diakroniska tillvägagångssätt, inklusive Block och Newmans definition av ämnens temporala dynamik i Pennsylvania Gazette 1728-1800 [10] . Griffiths och Stavers använde ämnesmodellering för PNAS- tidningsrecensioner, vilket avgjorde förändringen i ämnespopularitet från 1991 till 2001 [11] . Blevin skapade en tematisk modell för Martha Ballads dagbok [12] . Mimno använde ämnesmodellering för att analysera 24 klassiska och arkeologiska tidskrifter över 150 år för att fastställa förändringar i ämnens popularitet och hur mycket tidskrifterna hade förändrats under den tiden [13] .
David Blays "Introduction to Topic Modeling" betraktar den mest populära algoritmen Latent Dirichlet Allocation [14] . I praktiken använder forskare en av heuristikerna för den maximala sannolikhetsmetoden, metoder för singular value decomposition (SVD), metoden för moment , en algoritm baserad på en icke-negativ faktoriseringsmatris (NMF), probabilistiska ämnesmodeller, probabilistisk latent semantisk analys , latent Dirichletplacering. I Vorontsov K.V.s arbete övervägs variationer av huvudämnesmodelleringsalgoritmerna: robust ämnesmodell, ämnesklassificeringsmodeller, dynamiska ämnesmodeller, hierarkiska ämnesmodeller, flerspråkiga ämnesmodeller, textmodeller som en sekvens av ord, multimodala ämnesmodeller [2 ] .
Probabilistiska ämnesmodeller är baserade på följande antaganden [15] [16] [17] [18] :
Att bygga en ämnesmodell innebär att hitta matriser och genom insamling . I mer komplexa probabilistiska ämnesmodeller ersätts vissa av dessa antaganden av mer realistiska.
Probabilistisk latent semantisk analys (PLSA) föreslogs av Thomas Hofmann 1999. Den probabilistiska modellen för förekomsten av ett dokument-ord-par kan skrivas på tre likvärdiga sätt:
var är uppsättningen av ämnen;
— okänd a priori fördelning av ämnen i hela samlingen; är en a priori-fördelning på en uppsättning dokument, en empirisk uppskattning , där är den totala längden på alla dokument; är a priori-fördelning på uppsättningen ord, empirisk uppskattning , där är antalet förekomster av ett ord i alla dokument;De önskade villkorliga fördelningarna uttrycks i termer av Bayes formel:
För att identifiera parametrarna för ämnesmodellen från en samling dokument tillämpas principen om maximal sannolikhet , vilket leder till problemet med att maximera det funktionella [19]
under normaliseringsbegränsningar
var är antalet förekomster av ordet i dokumentet . För att lösa detta optimeringsproblem används vanligtvis EM-algoritmen .
De största nackdelarna med PLSA:
Latent Dirichlet Allocation (LDA) föreslogs av David Bley 2003.
Denna metod eliminerar de största nackdelarna med PLSA.
LDA-metoden bygger på samma probabilistiska modell
med ytterligare antaganden:
Gibbs sampling , variationsmässig Bayesiansk slutledning eller förväntningsutbredningsmetoden används för att identifiera parametrarna för LDA-modellen från en samling dokument .(Förväntningsutbredning).
naturlig språkbehandling | |
---|---|
Allmänna definitioner | |
Textanalys |
|
Refererar |
|
Maskinöversätta |
|
Identifiering och datainsamling | |
Tematisk modell | |
Peer review |
|
Naturligt språkgränssnitt |