Tematisk modellering

Ämnesmodellering är ett sätt att bygga en modell av en samling textdokument som avgör vilka ämnen varje dokument tillhör [1] .

Ämnesmodell ( engelsk topic model ) av en samling textdokument avgör vilka ämnen varje dokument tillhör och vilka ord (termer) som utgör varje ämne [2] .

Övergången från termernas utrymme till utrymmet för hittade ämnen hjälper till att lösa termernas synonymi och polysemi, samt att mer effektivt lösa sådana problem som tematisk sökning , klassificering , sammanfattning och anteckning av dokumentsamlingar och nyhetsflöden.

Ämnesmodellering, som en typ av statistisk modell för att hitta dolda ämnen som påträffas i en samling dokument, har hittat sin väg till områden som maskininlärning och naturlig språkbehandling . Forskare använder olika ämnesmodeller för att analysera texter, textarkiv av dokument, för att analysera förändringar i ämnen i uppsättningar av dokument . Intuitivt förstå att dokumentet hänvisar till ett visst ämne, i dokument som ägnas åt ett ämne, kan du hitta vissa ord oftare än andra. Till exempel: "hund" och "ben" förekommer oftare i dokument om hundar, "katter" och "mjölk" kommer att förekomma i dokument om kattungar, prepositionerna "och" och "in" kommer att förekomma i båda ämnena. Vanligtvis handlar ett dokument om flera ämnen i olika proportioner, så ett dokument där 10 % av ämnet är katter och 90 % av ämnet är hundar kan antas ha 9 gånger fler ord om hundar. Ämnesmodellering återspeglar denna intuition i en matematisk struktur som gör det möjligt, baserat på studiet av en samling dokument och studiet av frekvensegenskaperna för ord i varje dokument, att dra slutsatsen att varje dokument är en viss balans av ämnen.

De mest använda i moderna tillämpningar är tillvägagångssätt baserade på Bayesianska nätverk - probabilistiska modeller på riktade grafer . Probabilistiska ämnesmodeller är ett relativt ungt forskningsområde inom självlärande teori . En av de första föreslagna probabilistiska latenta semantiska analyserna (PLSA), baserad på principen om maximal sannolikhet , som ett alternativ till de klassiska metoderna för klustring , baserat på beräkning av avståndsfunktioner. Efter PLSA föreslogs den latenta Dirichlet-tilldelningsmetoden och dess många generaliseringar [3] .

Probabilistiska ämnesmodeller utför "mjuk" klustring, vilket gör att ett dokument eller en term kan relateras till flera ämnen samtidigt med olika sannolikheter. Probabilistiska ämnesmodeller beskriver varje ämne genom en diskret fördelning över en uppsättning termer, varje dokument genom en diskret fördelning över en uppsättning ämnen. Det antas att en samling av dokument är en sekvens av termer som väljs slumpmässigt och oberoende av en blandning av sådana distributioner, och uppgiften är att återställa komponenterna i blandningen från provet [4] .

Även om ämnesmodellering traditionellt har beskrivits och tillämpats i naturlig språkbehandling, har den också hittat sin väg till andra områden, såsom bioinformatik .

Historik

Den första beskrivningen av ämnesmodellering dök upp i ett papper från 1998 av Ragawan, Papadimitriou, Tomaki och Vempola [5] . Thomas Hofmann föreslog 1999 [6] probabilistisk latent semantisk indexering (PLSI). En av de vanligaste topiska modellerna är latent Dirichlet-placering (LDA), denna modell är en generalisering av probabilistisk semantisk indexering och utvecklades av David Blei , Andrew Ng och Michael Jordan ( engelska Michael I. Jordan ) [2002 . Andra ämnesmodeller tenderar att vara förlängningar av LDA, till exempel förbättrar placeringen av pachinko LDA genom att införa ytterligare korrelationskoefficienter för varje ord som utgör ett ämne.

Fallstudier

Templeton granskade arbetet med ämnesmodellering inom humaniora, grupperat under synkrona och diakrona tillvägagångssätt [8] . Synkrona tillvägagångssätt lyfter fram ämnen någon gång i tiden, till exempel använde Jockers en ämnesmodell för att utforska vad bloggare skrev om på Digital Humanities Day 2010 [9] .

Diakroniska tillvägagångssätt, inklusive Block och Newmans definition av ämnens temporala dynamik i Pennsylvania Gazette 1728-1800 [10] . Griffiths och Stavers använde ämnesmodellering för PNAS- tidningsrecensioner, vilket avgjorde förändringen i ämnespopularitet från 1991 till 2001 [11] . Blevin skapade en tematisk modell för Martha Ballads dagbok [12] . Mimno använde ämnesmodellering för att analysera 24 klassiska och arkeologiska tidskrifter över 150 år för att fastställa förändringar i ämnens popularitet och hur mycket tidskrifterna hade förändrats under den tiden [13] .

Ämnesmodelleringsalgoritmer

David Blays "Introduction to Topic Modeling" betraktar den mest populära algoritmen Latent Dirichlet Allocation [14] . I praktiken använder forskare en av heuristikerna för den maximala sannolikhetsmetoden, metoder för singular value decomposition (SVD), metoden för moment , en algoritm baserad på en icke-negativ faktoriseringsmatris (NMF), probabilistiska ämnesmodeller, probabilistisk latent semantisk analys , latent Dirichletplacering. I Vorontsov K.V.s arbete övervägs variationer av huvudämnesmodelleringsalgoritmerna: robust ämnesmodell, ämnesklassificeringsmodeller, dynamiska ämnesmodeller, hierarkiska ämnesmodeller, flerspråkiga ämnesmodeller, textmodeller som en sekvens av ord, multimodala ämnesmodeller [2 ] .

Probabilistiska ämnesmodeller är baserade på följande antaganden [15] [16] [17] [18] :

Ordningen på handlingarna i samlingen spelar ingen roll
Ordens ordning i ett dokument spelar ingen roll, ett dokument är en påse med ord.
Ord som förekommer ofta i de flesta dokument är inte viktiga för att bestämma ämnet
En samling dokument kan representeras som ett urval av dokument-ordpar , , $(d,w)$ $d\i D$ $w\in {\mathit {W}}_{d}$
Varje ämne beskrivs av en okänd fördelning på uppsättningen av ord $t\i T$ $p({\mathit {W}}|t)$ $w\in {\mathit {W}}$
Varje dokument beskrivs av en okänd distribution över en uppsättning ämnen $d\i D$ $p(t|d)$ $t\i T$
Hypotes om villkorad oberoende $p(w|t,d)=p(w|t)$

Att bygga en ämnesmodell innebär att hitta matriser och genom insamling . I mer komplexa probabilistiska ämnesmodeller ersätts vissa av dessa antaganden av mer realistiska. $\Phi =||p(w|t)||$ $\Theta =||p(t|d)||$ ${\mathit {D}}$

Probabilistisk latent semantisk analys

Probabilistisk latent semantisk analys (PLSA) föreslogs av Thomas Hofmann 1999. Den probabilistiska modellen för förekomsten av ett dokument-ord-par kan skrivas på tre likvärdiga sätt:

p(d,w)=\summa _{{t\in T}}p(t)p(w|t)p(d|t)=\summa _{{t\in T}}p(d) p(w|t)p(t|d)=\summa _{{t\in T}}p(w)p(t|w)p(d|t)

var är uppsättningen av ämnen; $T$

p(t)

— okänd a priori fördelning av ämnen i hela samlingen;

p(d)

är en a priori-fördelning på en uppsättning dokument, en empirisk uppskattning , där är den totala längden på alla dokument;

p(d)=n_{d}/n

n=\summa _{d}n_{d}

p(w)

är a priori-fördelning på uppsättningen ord, empirisk uppskattning , där är antalet förekomster av ett ord i alla dokument;

p(w)=n_{w}/n

n_{w}

w

De önskade villkorliga fördelningarna uttrycks i termer av Bayes formel: $p(w|t),p(t|d)$ $p(t|w),p(d|t)$

$p(w|t)={\frac {p(t|w)p(w)}{\sum _{{w'}}p(t|w')p(w')}});\qquad p (t|d)={\frac {p(d|t)p(t)}{\sum _{{t'}}p(d|t')p(t')}}.$

För att identifiera parametrarna för ämnesmodellen från en samling dokument tillämpas principen om maximal sannolikhet , vilket leder till problemet med att maximera det funktionella [19]

$\sum _{d\in D}\sum _{w\in d}n_{dw}\ln \sum _{t\in \mathrm {T} }\varphi _{wt}\theta _{ td}\to \max _{\Phi ,\Theta },$

under normaliseringsbegränsningar

$\summa _{w}p(w|t)=1,\;\summa _{t}p(t|d)=1,\;\summa _{t}p(t)=1,$

var är antalet förekomster av ordet i dokumentet . För att lösa detta optimeringsproblem används vanligtvis EM-algoritmen . $n_{{dw}}$ $w$ $d$

De största nackdelarna med PLSA:

Antalet parametrar växer linjärt med antalet dokument i samlingen, vilket kan leda till övermontering av modellen.
När ett nytt dokument läggs till i samlingen kan fördelningen inte beräknas med samma formler som för andra dokument utan att bygga om hela modellen. $d$ $p(t|d)$

Latent placering av Dirichlet

Latent Dirichlet Allocation (LDA) föreslogs av David Bley 2003.

Denna metod eliminerar de största nackdelarna med PLSA.

LDA-metoden bygger på samma probabilistiska modell

$p(d,w)=\summa _{{t\in T}}p(d)p(w|t)p(t|d),$

med ytterligare antaganden:

dokumentvektorer genereras av samma sannolikhetsfördelning på normaliserade -dimensionella vektorer; det är lämpligt att ta denna distribution från den parametriska familjen av Dirichlet-distributioner ; $\theta _{d}={\bigl (}p(t|d):t\in T{\bigr )}$ $|T|$ ${\mathrm {Dir}}(\theta ,\alpha ),\;\alpha \in {\mathbb {R}}^{{|T|}}$
ämnesvektorerna genereras av samma sannolikhetsfördelning på normaliserade vektorer av dimension ; det är bekvämt att ta denna distribution från den parametriska familjen av Dirichlet-distributioner . $\phi _{t}={\bigl (}p(w|t):w\in W{\bigr )}$ $|W|$ ${\mathrm {Dir}}(\theta ,\beta ),\;\beta \in {\mathbb {R}}^{{|W|}}$

Gibbs sampling , variationsmässig Bayesiansk slutledning eller förväntningsutbredningsmetoden används för att identifiera parametrarna för LDA-modellen från en samling dokument .(Förväntningsutbredning).

Se även

semantisk
Dirichlet-

Anteckningar

↑ Korsjunov, 2012 .
↑ 1 2 Vorontsov, 2013 .
↑ Ali10, 2010 .
↑ Vorontsov 12, 2012 .
↑ Papadimitriou, 1998 .
↑ Hofmann, 1999 .
↑ Blay 2003, 2003 .
↑ Templeton, 2011 .
↑ Jokers, 2010 .
↑ Newman Block, 2006 .
↑ Griffiths, 2004 .
↑ Blevin, 2010 .
↑ Mimno, 2012 .
↑ Blay 2012, 2012 .
↑ Korsjunov, 2012 , sid. 229.
↑ Vorontsov, 2013 , sid. 6.
↑ Vorontsov 13, 2013 , sid. 5.
↑ VorontsovML, 2013 , sid. 5.
↑ K. V. Vorontsov. Probabilistisk tematisk modellering (ryska) ? . Datum för åtkomst: 26 oktober 2013. Arkiverad från originalet den 24 juli 2014. (obestämd)

Litteratur

Korshunov Anton, Gomzin Andrey. Tematisk modellering av texter i naturligt språk // Proceedings of the Institute for System Programming of the Russian Academy of Sciences: tidskrift. — 2012.
Vorontsov K.V. Probabilistisk tematisk modellering // www.machinelearning.ru : webb. — 2013.
Vorontsov K.V., Potapenko A.A. Regularisering, robusthet och gleshet av probabilistiska tematiska modeller // Datorforskning och modellering : tidskrift. - 2012. - S. 693-706 .
Vorontsov K.V. Additiv regularisering av probabilistiska ämnesmodeller Presentation // www.machinelearning.ru : webb. — 2013.
Vorontsov K.V. Probabilistiska tematiska modeller av en samling textdokument Presentation // www.machinelearning.ru : webb. — 2013.
Mark Stavers, Tom Griffiths. Probabilistisk tematisk modell. // Handbook of Latent Semantic Analysis / T. Landauer, D. McNamara, S. Dennis, W. Kintsch. - Psychology Press, 2007. - ISBN 978-0-8058-5418-3 . Arkiverad 24 juni 2013 på Wayback Machine
Daud Ali, Li Juanzi, Zhou Lizhu, Muhammad Faqir. Kunskapsupptäckt genom riktade probabilistiska ämnesmodeller: en undersökning. I Proceedings of Frontiers of Computer Science in China. // www.researchgate.net : webb. — 2010.
Christos Papadimitriou, Prabhakar Raghavan, Hisao Tamaki, Santosh Vempala. Latent Semantic Indexing: A probabilistic analysis // Proceedings of ACM PODS. - 1998. Arkiverad den 9 maj 2013.
Thomas Hoffman. Probabilistic Latent Semantic Indexing // Proceedings of the Twenty-Second Annual International SIGIR Conference on Research and Development in Information Retrieval. - 1999. Arkiverad den 14 december 2010.
David M. Blei, Andrew Y. Ng, Michael I. Jordan. Latent Dirichlet Allocation // Journal of Machine Learning Research. - 2003. Arkiverad 1 maj 2012.
David Blei. Introduktion till probabilistiska ämnesmodeller // ACM: s kommunikation . - 2012. - S. 77–84 . Arkiverad från originalet den 15 februari 2017.
David Blei, JD Lafferty. Ämnesmodeller : webb. - 2009. Arkiverad 31 maj 2013.
David Blei, JD Lafferty. Introduktion till probabilistiska ämnesmodeller // Annals of Applied Statistics. - 2007. - S. 17-35 . - doi : 10.1214/07-AOAS114 . Arkiverad från originalet den 15 februari 2017.
David Mimno. Computational Historiography: Data Mining in a Century of Classics Journals // Journal on Computing and Cultural Heritage: tidskrift. - 2012. - doi : 10.1145/2160165.2160168 .
Matthew L. Jockers. Vem är din DH Blog Mate: Match-Making the Day of DH Bloggers med Topic Modeling : webb. — 2010.
E. Blandning. Att förstå den digitala humaniora : webb. — 2011.
C. Templeton. Ämnesmodellering inom humaniora: en recension. // Maryland Institute for Technology in the Humanities Blogg : webb. — 2011.
T. Gifits, M. Stivers. Hitta vetenskapliga ämnen // Proceedings of the National Academy of Sciences: tidskrift. - 2004. - doi : 10.1073/pnas.0307752101 . — PMID 14872004 .
T. Young, A Torget och R. Mihalcea. Ämnesmodellering i historiska tidningar // Proceedings of the 5th ACL-HLT Workshop on Language Technology for Cultural Heritage, Social Sciences and Humanities. Association for Computational Linguistics, Madison: tidskrift. - 2011. - S. 96-104 . Arkiverad från originalet den 27 mars 2014.
S. Block. Doing More with Digitalization - An Introduction to Topic Modeling in Early American Sources // Common-place The Interactive Journal of Early American Life: Journal. – 2006.
D. Newman, S. Block. Probabilistic Topical Expansion in 18th Century Newspapers // Journal of the American Society for Information Science and Technology: Journal. - 2006. - doi : 10.1002/asi.20342 .
C. Blevin. Tematisk modellering av Martha Ballards dagbok // historying: web. — 2010.

Länkar

Föreläsning: Ämnesmodellering — K. V. Vorontsov // School of data analysis (videoföreläsningar).
Föreläsning 2: Ämnesmodellering - K. V. Vorontsov // School of data analysis (videoföreläsningar).
Tematisk modellering . (obestämd)
Dokumentsamlingar för ämnesmodellering . (obestämd)
Helt glesa ämnesmodeller (översättning) / Helt glesa ämnesmodeller . (obestämd)
En undersökning om probabilistiska ämnesmodeller . (obestämd)
Ämnesmodeller för en textsamling . (obestämd)
Bayesianska metoder för maskininlärning (föreläsningskurs, D. P. Vetrov, D. A. Kropotov) . (obestämd)
Heatlton, Clay Topic Modeling in the Humanities. Generell bedömning. . Maryland Institute for Technology in the Humanities. (obestämd)
Tillämpning av ämnesmodellering för nyhetsanalys och recensioner. Video av en Google Tech Talk-presentation av Alice Oh om ämnesmodellering med Latent Dirichlet-tilldelning
Modelleringsvetenskap: Dynamisk tematisk modellering av vetenskaplig forskning. Video av en Google Tech Talk-presentation av David M. Blei
Automatiserad ämnesmodell i statsvetenskap. Video av en presentation av Brandon Stewart vid Tools for Text Workshop 14 juni 2010
Föreläsning: Ämnesmodellering - David Blay 2009 Videoföreläsning Princeton University
Regularisering av probabilistiska ämnesmodeller för att öka tolkningsbarheten och bestämma antalet ämnen Dialog 2014
Sparsamma ämnesmodeller med framträdande ordupptäckt

Program- och mjukvarubibliotek

Malet (program)
Stanford University Topic Modeling Toolkit
GenSim - "temasimulering för människor"
LDA C# LDA i Infer.NET

naturlig språkbehandling
Allmänna definitioner	Korpus av texter talkorpus Stoppa ord påse med ord AI fullständighet N-gram Bigram chiffer trigram
Textanalys	Textsegmentering Delvis markering Ytanalys Sammansatt ordbehandling Extrahera samlokaliseringar härrörande Lematisering Named Entity Recognition Coreference resolution Textsentimentanalys Konceptextraktion analysera Upplösning av lexikal polysemi Extrahera terminologi Informationsextraktion Språkidentifiering Falldefinition
Refererar	Extrahera meningar Abstrakt generation Referens till flera dokument Textförenkling
Maskinöversätta	automatiserad Hybrid Interlingual Regelbaserad Baserat på exempel Ordboksbaserad Baserat på transformation neural Statistisk Synkron
Identifiering och datainsamling	Taligenkänning talsyntes Optisk teckenigenkänning Textgenerering
Tematisk modell	Pachinko placering Latent Dirichlet placering Latent semantisk analys
Peer review	Automatiserad bedömning av uppsatser Konkordansör Automatisk textinmatning Grammatikkontroll Stavningskontroll Syntax gissning
Naturligt språkgränssnitt	virtuell assistent Virtuell samtalspartner Fråge- och svarsystem Röstgränssnitt Interaktiv litteratur