Pachinko allocation ( PAM ) är en ämnesmodelleringsmetod som används vid maskininlärning och naturlig språkbehandling som låter dig upptäcka en dold tematisk struktur i en samling dokument [1] . Algoritmen skiljer sig från tidigare metoder (som LDA ) genom att den modellerar korrelationer mellan ämnen utöver de för de ämnesspecificerande orden. PAM är överlägsen LDA när det gäller flexibilitet och uttryckskraft [2] . För första gången beskrevs, implementerades och tillämpades metoden på textbehandling i naturligt språk, men den kan även användas inom andra områden, till exempel för bioinformatikuppgifter . Det har fått sitt namn från pachinko spelautomater, populära i Japan , där ett spel som liknar flipperspel på en Galton-bräda är implementerat .
Placeringen av Pachinko beskrevs först av Li Wei och Andrew McCallum 2005 [3] . År 2007 generaliserade Lee, McCallum och David Mimno idén till den hierarkiska placeringen av pachinko [4] . Samma år föreslog McCallum och hans kollegor att införa en icke-parametrisk Bayesiansk distribution i PAM baserad på en modifiering av den hierarkiska Dirichlet-processen (HDP) [2] . Algoritmen är implementerad i Java -biblioteket med öppen källkod Mallet .
För att skildra den genererande modellen konstrueras en acyklisk digraf, där hörnen är ord och ämnen, och ord kan bara vara blad. Sedan är "trenivåmodellen" LDA , och "tvånivåmodellen" är Dirichlet-multinomialfördelningen[ specificera ] .
naturlig språkbehandling | |
---|---|
Allmänna definitioner | |
Textanalys |
|
Refererar |
|
Maskinöversätta |
|
Identifiering och datainsamling | |
Tematisk modell | |
Peer review |
|
Naturligt språkgränssnitt |