Probabilistisk latent semantisk analys

Den aktuella versionen av sidan har ännu inte granskats av erfarna bidragsgivare och kan skilja sig väsentligt från versionen som granskades den 26 juni 2016; kontroller kräver 7 redigeringar .

Probabilistisk latent semantisk analys (PLSA) , även känd som probabilistisk latent semantisk indexering ( PLSI , särskilt inom området för informationssökning), är en statistisk metod för att analysera korrelationen mellan två typer av data . Denna metod är en vidareutveckling av latent semantisk analys . VLSA tillämpas inom områden som informationssökning , naturlig språkbehandling , maskininlärning och relaterade områden. Denna metod publicerades första gången 1999 av Thomas Hofmann [1] .

Jämfört med konventionell latent semantisk analys , som är baserad på linjär algebra och är ett sätt att reducera dimensionaliteten av en matris (vanligtvis med singulärvärdesuppdelning av en diagonal matris ), är probabilistisk latent semantisk analys baserad på blandad nedbrytning, som i sin tur har sitt ursprung. från den dolda klassmodellen. Detta tillvägagångssätt är mer grundläggande eftersom det har en solid grund inom statistikområdet.

Varianter av pLSA

Anteckningar

  1. Thomas Hofmann, Probabilistic Latent Semantic Indexing Arkiverad 14 december 2010. , Proceedings of the Twenty-Second Annual International SIGIR Conference on Research and Development in Information Retrieval (SIGIR-99), 1999
  2. Alexei Vinokourov och Mark Girolami, A Probabilistic Framework for the Hierarchic Organization and Classification of Document Collections , in Information Processing and Management , 2002
  3. Eric Gaussier, Cyril Goutte, Kris Popat och Francine Chen, A Hierarchical Model for Clustering and Categorizing Documents Archived March 13, 2006 at the Wayback Machine , i "Advances in Information Retrieval - Proceedings of the 24th BCS-IRSG European Research Colloquium on IR " (ECIR-02)", 2002

Se även