Pachinko placering

Den aktuella versionen av sidan har ännu inte granskats av erfarna bidragsgivare och kan skilja sig väsentligt från versionen som granskades den 12 februari 2020; verifiering kräver 1 redigering .

Pachinko allocation ( PAM ) är en  ämnesmodelleringsmetod som används vid maskininlärning och naturlig språkbehandling som låter dig upptäcka en dold tematisk struktur i en samling dokument [1] . Algoritmen skiljer sig från tidigare metoder (som LDA ) genom att den modellerar korrelationer mellan ämnen utöver de för de ämnesspecificerande orden. PAM är överlägsen LDA när det gäller flexibilitet och uttryckskraft [2] . För första gången beskrevs, implementerades och tillämpades metoden på textbehandling i naturligt språk, men den kan även användas inom andra områden, till exempel för bioinformatikuppgifter . Det har fått sitt namn från pachinko spelautomater, populära i Japan , där ett spel som liknar flipperspelen Galton-bräda är implementerat .

Historik

Placeringen av Pachinko beskrevs först av Li Wei och Andrew McCallum 2005 [3] . År 2007 generaliserade Lee, McCallum och David Mimno idén till den hierarkiska placeringen av pachinko [4] . Samma år föreslog McCallum och hans kollegor att införa en icke-parametrisk Bayesiansk distribution i PAM baserad på en modifiering av den hierarkiska Dirichlet-processen (HDP) [2] . Algoritmen är implementerad i Java -biblioteket med öppen källkod Mallet .

Modell

För att skildra den genererande modellen konstrueras en acyklisk digraf, där hörnen är ord och ämnen, och ord kan bara vara blad. Sedan är "trenivåmodellen" LDA , och "tvånivåmodellen" är Dirichlet-multinomialfördelningen[ specificera ] .

Se även

Anteckningar

  1. Blei, David Ämnesmodellering (inte tillgänglig länk) . Hämtad 4 oktober 2012. Arkiverad från originalet 2 oktober 2012. 
  2. 12 Li , Wei; Blei, David; McCallum, Andrew. Icke-parametrisk Bayes Pachinko-allokering  (neopr.) . - 2007. Arkiverad 3 oktober 2012.
  3. Li, Wei; McCallum, Andrew. Pachinko Allocation: DAG-Structured Mixture Models of Topic Correlations  //  Proceedings of the 23rd International Conference on Machine Learning : journal. – 2006.
  4. Mimno, David; Li, Wei; McCallum, Andrew. Blandningar av hierarkiska ämnen med Pachinko Allocation  //  Proceedings of the 24th International Conference on Machine Learning : journal. - 2007. Arkiverad 20 juni 2013.
  5. Hofmann, Thomas. Probabilistic Latent Semantic Indexing  (neopr.)  // Proceedings of the Twenty-Second Annual International SIGIR Conference on Research and Development in Information Retrieval. - 1999. Arkiverad den 14 december 2010.
  6. Blei, David M.; Ng, Andrew Y.; Jordan, Michael I; Lafferty, John. Latent Dirichlet allocation  (engelska)  // Journal of Machine Learning Research  : journal. - 2003. - Januari ( vol. 3 ). - P. pp. 993-1022 . - doi : 10.1162/jmlr.2003.3.4-5.993 . Arkiverad från originalet den 1 maj 2012.