Latent Dirichlet allocation ( LDA , från engelska Latent Dirichlet allocation ) är en generativ modell som används vid maskininlärning och informationssökning som låter dig förklara resultaten av observationer med hjälp av implicita grupper, vilket gör det möjligt att identifiera orsakerna till likheten mellan vissa delar av uppgifterna. Om observationerna till exempel är ord samlade i dokument, hävdas det att varje dokument är en blandning av ett litet antal ämnen och att förekomsten av varje ord är associerad med ett av dokumentets ämnen. LDA är en av ämnesmodelleringsteknikerna och introducerades först som en grafmodell för ämnesupptäckt av David Bley, Andrew Ng och Michael Jordan 2003 [1] .
I LDA kan varje dokument ses som en samling av olika ämnen. Detta tillvägagångssätt liknar probabilistisk latent semantisk analys (pLSA), med skillnaden att det i LDA antas att fördelningen av ämnen har Dirichlet-fördelningar som a priori . I praktiken blir resultatet en mer korrekt uppsättning ämnen.
Till exempel kan en modell ha ämnen klassificerade som "kattrelaterade" och "hundrelaterade", ett ämne som har sannolikhet att generera olika ord som "jam", "mjölk" eller "kattunge" som kan klassificeras som " relaterade till hundar". till katter", och ord som inte har speciell betydelse (till exempel serviceord ) kommer att ha ungefär lika stor sannolikhet i olika ämnen.
naturlig språkbehandling | |
---|---|
Allmänna definitioner | |
Textanalys |
|
Refererar |
|
Maskinöversätta |
|
Identifiering och datainsamling | |
Tematisk modell | |
Peer review |
|
Naturligt språkgränssnitt |