Probabilistisk latent semantisk analys

Den aktuella versionen av sidan har ännu inte granskats av erfarna bidragsgivare och kan skilja sig väsentligt från versionen som granskades den 26 juni 2016; kontroller kräver 7 redigeringar .

Probabilistisk latent semantisk analys (PLSA) , även känd som probabilistisk latent semantisk indexering ( PLSI , särskilt inom området för informationssökning), är en statistisk metod för att analysera korrelationen mellan två typer av data . Denna metod är en vidareutveckling av latent semantisk analys . VLSA tillämpas inom områden som informationssökning , naturlig språkbehandling , maskininlärning och relaterade områden. Denna metod publicerades första gången 1999 av Thomas Hofmann [1] .

Jämfört med konventionell latent semantisk analys , som är baserad på linjär algebra och är ett sätt att reducera dimensionaliteten av en matris (vanligtvis med singulärvärdesuppdelning av en diagonal matris ), är probabilistisk latent semantisk analys baserad på blandad nedbrytning, som i sin tur har sitt ursprung. från den dolda klassmodellen. Detta tillvägagångssätt är mer grundläggande eftersom det har en solid grund inom statistikområdet.

Varianter av pLSA

Hierarkiska tillägg:
- Asymmetrisk: MASHA ("Multinomial ASymmetric Hierarchical Analysis", "polynomial asymmetrical hierarchical analysis") [2]
- Symmetrisk: HPLSA ("Hierarchical Probabilistic Latent Semantic Analysis", "Hierarchical probabilistic latent semantic analysis"), [3]

Generativa modeller: Designade för att åtgärda en ofta kritiserad brist hos pLSA, nämligen att det är en felaktig generativ modell för nya dokument.
- Dold Dirichlet-distribution - lägger till en Dirichlet-distribution som en tidigare distribution av ämnen över dokument

Data av högre ordning: Även om det sällan diskuteras i den vetenskapliga litteraturen, är pLSA naturligt tillämplig på data av högre ordning (tre-nivåer och högre), vilket innebär att den kan modellera det kombinerade beteendet hos tre eller flera variabler. I den symmetriska formuleringen ovan görs detta genom att helt enkelt lägga till en betingad sannolikhetsfördelning för dessa ytterligare variabler. Detta är en probabilistisk analog av icke-negativ tensorfaktorisering.

Anteckningar

↑ Thomas Hofmann, Probabilistic Latent Semantic Indexing Arkiverad 14 december 2010. , Proceedings of the Twenty-Second Annual International SIGIR Conference on Research and Development in Information Retrieval (SIGIR-99), 1999
↑ Alexei Vinokourov och Mark Girolami, A Probabilistic Framework for the Hierarchic Organization and Classification of Document Collections , in Information Processing and Management , 2002
↑ Eric Gaussier, Cyril Goutte, Kris Popat och Francine Chen, A Hierarchical Model for Clustering and Categorizing Documents Archived March 13, 2006 at the Wayback Machine , i "Advances in Information Retrieval - Proceedings of the 24th BCS-IRSG European Research Colloquium on IR " (ECIR-02)", 2002

Probabilistisk latent semantisk analys

Varianter av pLSA

Anteckningar

Se även