Dirichlet distribution

Den aktuella versionen av sidan har ännu inte granskats av erfarna bidragsgivare och kan skilja sig väsentligt från versionen som granskades den 23 maj 2021; verifiering kräver 1 redigering .

Inom sannolikhetsteori och matematisk statistik är Dirichlet-fördelningen (uppkallad efter Johann Peter Gustav Lejeune-Dirichlet ), ofta betecknad Dir( α ), en familj av kontinuerliga flerdimensionella sannolikhetsfördelningar av icke-negativa reella tal parametriserade av vektorn α . Dirichlet-fördelningen är en generalisering av betafördelningen till det multivariata fallet. Det vill säga, dess sannolikhetstäthetsfunktion returnerar konfidenssannolikheten att sannolikheten för var och en av de K ömsesidigt uteslutande händelserna är lika , givet att varje händelse har observerats en gång.

Sannolikhetstäthetsfunktion

Sannolikhetstäthetsfunktionen för en Dirichlet-fördelning av ordning K är [1] :

där , , , och  är en flerdimensionell betafunktion , där

Egenskaper

Låt och sedan [1]

Fördelningsläget är vektorn x ( x 1 , …, x K ) med

Dirichlet-fördelningen är konjugatet före multinomfördelningen , nämligen: if

där β i  är antalet förekomster av i i ett urval av n punkter i en diskret fördelning på {1, …, K } definierad genom X , då

Detta förhållande används i Bayesiansk statistik för att uppskatta de latenta parametrarna, X , för en diskret sannolikhetsfördelning givet en uppsättning av n sampel. Uppenbarligen, om priorn betecknas som Dir( α ), så är Dir( α + β ) den bakre fördelningen efter en serie observationer med histogram β .

Relationer med andra distributioner

Om för

oavsett alltså

och

Även om X i inte är oberoende av varandra, kan de genereras från en uppsättning oberoende gamma -slumpvariabler. Tyvärr, eftersom summan går förlorad i processen att bilda X = ( X 1 , …, X K ), blir det omöjligt att återställa de initiala värdena för gamma-slumpvariabler endast från dessa värden. Men på grund av det faktum att det är lättare att arbeta med oberoende slumpvariabler kan denna transformation av parametrar vara användbar för att bevisa egenskaperna hos Dirichlet-fördelningen.

Generering av slumptal

Metoden för att konstruera en slumpmässig vektor för en Dirichletfördelning av dimension K med parametrar följer direkt av detta samband. Först får vi K oberoende slumpmässiga prover från gammafördelningar , som var och en har en densitet

och sedan lägga

Visuell tolkning av parametrar

Som ett exempel på användning av Dirichlet-fördelningen kan vi föreslå ett problem där det krävs att gänga (var och en med en initial längd på 1,0) skärs till K-delar med olika längder så att alla delar har en given medellängd, men med möjlighet till viss variation i delarnas relativa längder. Värdena α / α 0 bestämmer medellängden på gängdelarna som resulterar från fördelningen. Spridningen runt medelvärdet är omvänt proportionell mot α 0 .

Se även

Anteckningar

  1. 1 2 Groot, 1974 , sid. 56-58.

Litteratur