Entropi maximal princip

Den aktuella versionen av sidan har ännu inte granskats av erfarna bidragsgivare och kan skilja sig väsentligt från versionen som granskades den 8 december 2015; kontroller kräver 32 redigeringar .

Principen för maximal entropi säger att de mest karakteristiska sannolikhetsfördelningarna av tillstånden i en osäker miljö är de som maximerar det valda måttet på osäkerhet för en given information om miljöns "beteende". För första gången användes ett sådant tillvägagångssätt av D.Gibbs för att hitta extrema fördelningsfunktioner hos fysiska ensembler av partiklar . Därefter föreslog E. Janes en formalism för att återställa okända lagar för distribution av slumpvariabler i närvaro av restriktioner från villkoren för maximum av Shannons entropi .

Historik

Betrakta en diskret slumpvariabel som kan ta värden med sannolikheter . Sannolikheterna är inte kända. Men den matematiska förväntan på någon funktion hos en given slumpvariabel är känd: . Baserat på denna information, vad är det förväntade värdet av funktionen ?

Vid första anblicken verkar uppgiften olöslig, eftersom det är nödvändigt att veta sannolikhetsfördelningen i förväg , och den initiala informationen räcker inte för att hitta alla sannolikheter . Förväntningsekvationen för funktionen ger tillsammans med normaliseringsekvationen endast två av de ekvationer som är nödvändiga för att sammanställa ett ekvationssystem.

Detta problem med att bestämma sannolikhetsfördelningen i de fall det finns liten eller ingen information om en slumpvariabel är lika gammal som sannolikhetsteorin i sig. Laplaces princip om otillräckligt skäl var ett försök att föreslå ett sådant urvalskriterium: det är att två händelser anses vara lika sannolika om det inte finns anledning att tro något annat.

Det bör noteras [1] att kopplingen mellan statistik och den axiomatiska sannolikhetsteorin har 2 olika tillvägagångssätt. Frekvensmetoden (frekvensistisk) betraktar sannolikhet som en frekvensgräns , sannolikhet är något som beskriver egenskaperna hos oändligt stora ensembler av binära händelser. Den bayesianska metoden generaliserar den frekventistiska metoden genom att den postulerar en ny betydelse av sannolikhet som en kvantitativ egenskap hos alla binära experiment. Detta ger samma resultat vid beskrivning av ensembler som det frekventistiska tillvägagångssättet, men tillåter oss att ge kvantitativa uppskattningar för binära experiment, vars resultat inte är känt i förväg, och förbättra uppskattningarna när ny information om resultaten blir tillgänglig; Allt detta är meningslöst i den frekventistiska förståelsen.

Laplace , till exempel, trodde att det inte finns något slumpmässigt i världen överhuvudtaget, och om det finns information om orsakerna till händelserna kan konsekvenserna (händelserna i sig) förutsägas med 100% noggrannhet ( Laplacian determinism ). Detta förhållningssätt till sannolikhet utvecklades oberoende av fysikern D. Gibbs (i Gibbs statistiska mekanik ) och matematikern K. Shannon (i utvecklingen av informationsteorin ). Båda fick ett värde som uttrycker ett mått på osäkerhet om utfallen av en händelse (eller, med andra ord, ett mått på osäkerheten i en sannolikhetsfördelning), som kallades entropi och beräknades med liknande formler. Denna likhet uppmärksammades ytterligare av fysikern E. T. Janes i två artiklar 1957 [1] [2] .

Strängt taget var Gibbs inte en pionjär i att utveckla konceptet fysisk entropi. Själva begreppet entropi föreslogs av fysikern R. Clausius , och sedan utvecklades det av fysikern L. Boltzmann , och var och en av dem fick sin egen entropifunktion. Clausius arbetade med termodynamiska begrepp, medan Boltzmann utvecklade molekylär fysik och statistisk mekanik.

På samma sätt baserade Shannon sitt arbete på resultaten av G. Nyquist och R. Hartley , som lade grunden till informationsteorin.

Funktionalitet

Antag att en händelse kan eller inte kan inträffa i ett slumpmässigt experiment. Om händelsen inte inträffade kommer vi att anta att den motsatta händelsen inträffade . Således händelserna och  bildar en komplett grupp av händelser, vilket innebär att dessa är inkompatibla händelser, och deras sannolikheter i summan är lika med en: .

Om ingenting är känt om händelsen alls, så är det enligt den subjektiva synen på sannolikhet nödvändigt att acceptera att händelserna och är  lika sannolika: .

När du får lite information kommer den ena sannolikheten att uppväga den andra, och osäkerheten kommer att börja minska. I slutändan, när fullständig information erhålls, visar det sig att , (eller vice versa: , ). Osäkerheten sjunker då till noll.

Det skulle vara trevligt att komma på en funktion av dessa sannolikheter som skulle nå ett maximum med fullständig osäkerhet och försvinna med fullständig säkerhet. Och ju mer en sannolikhet uppväger den andra, desto mer "asymmetri" mellan dem, desto mindre värde tar denna funktion.

Vi kallar denna funktion (funktionell) fördelningens entropi eller fördelningens osäkerhet. Strängt taget är entropi bara ett mått på osäkerhet, inte osäkerheten i sig. Men allt här är detsamma som i fallet med sannolikheter: sannolikhet är både möjligheten till en händelse och måttet på denna möjlighet. I princip är det korrekt att säga si och så.

Som en sådan funktion kan man överväga till exempel produkten av sannolikheterna för händelser och . Beteckna och överväga funktionen . Eftersom  en inverterad parabel passerar genom origo och punkt , når den sitt maximum vid .

Vidare, när "asymmetrin" av sannolikheter ökar, minskar den gradvis tills den slutligen blir noll vid eller vid .

Det bör noteras att på grund av symmetri , eftersom det inte spelar någon roll vilken av de två händelserna som har en sannolikhet och vilken som har en sannolikhet .

Å andra sidan (0,21<0,24) eftersom sannolikheterna i detta andra fall är mer "asymmetriska" än i det första fallet.

Observera att funktionen , där  är någon koefficient, också klarar av de "tullar" som åläggs den: den når ett maximum vid och ett minimum (noll) vid och . Detta innebär att önskad funktion kan bestämmas upp till en viss koefficient.

Låt nu hela gruppen av händelser bildas av tre händelser. Det är möjligt i detta fall att betrakta produkten av deras sannolikheter som entropi, och det kan till och med bevisas att denna produkt når sitt maximum när alla sannolikheter är lika med varandra: .

Här finns det dock ett problem. Den maximala entropin för tre händelser är  - vilket är mindre än den maximala entropin för två händelser, vilket är . Och jag skulle vilja att det var tvärtom: ju fler händelser, desto större osäkerhet.

Ett annat, mer allvarligt problem är att om sannolikheten för minst en händelse är noll, så blir hela produkten av sannolikheter automatiskt noll. Det vill säga, osäkerheten försvinner, blir lika med noll enligt en sådan funktion, även om den faktiskt inte är det. Osäkerheten bör försvinna när alla utom en av sannolikheterna är lika med noll, och denna enda sannolikhet är lika med en. Icke desto mindre, för två resultat, kan en sådan funktion användas ganska bra. Men för två utfall och inga funktionaliteter behövs: om förväntningen på fördelningen av någon slumpvariabel är känd , ger förväntansekvationen, tillsammans med normaliseringsvillkoret, bara ett system av två ekvationer, från vilka och finns unikt . Om inget alls är känt om fördelningen, så likställs sannolikheterna med varandra, och detta kan göras utan några funktionaliteter.

Shannons entropi

Claude Shannon ställde tre villkor för den önskade funktionen [3] :

  1. måste vara en kontinuerlig funktion av variablerna ;
  2. om alla sannolikheter är lika, då är funktionen en monotont ökande funktion av . Med andra ord, ;
  3. ackordslagstiftningen. Istället för att ange sannolikheterna för händelser direkt, kan du gruppera den första av dem som en händelse med motsvarande sannolikhet . Resten är som den andra händelsen med sannolikhet . Då måste funktionen följa villkoret ;

Sammansättningslagen kräver särskild hänsyn, eftersom det är på grundval av den som funktionens form formas vidare . Tanken är följande.

Slumpexperimentet är uppdelat i två på varandra följande steg. I det första steget väljs den första (före ) eller den andra (efter ) delen av utfallen med sannolikheter och . I det andra steget väljs själva resultatet från den valda delen av resultaten. I det här fallet är resultatet från den valda delen redan valt med villkorade sannolikheter , det vill säga förutsatt att denna del (i det här fallet den första delen) väljs. Shannon själv säger att om valet faller in i två steg måste den initiala entropin vara en viktad summa av de individuella entropierna, det vill säga de villkorliga entropierna.

Den allmänna innebörden är att om ett slumpmässigt val görs i det första steget, så tar sannolikheterna och värdena eller , och den ytterligare osäkerheten är lika med endast en av de villkorliga entropierna.

Som ett exempel, betrakta två grafer:

På den vänstra grafen finns tre utfall med sannolikheter , , , som bildar en komplett grupp av händelser (dvs. ). På den högra grafen väljer vi först mellan två möjligheter, var och en med sannolikhet . Om den andra möjligheten väljs, görs ett annat val med sannolikheter och . Entropierna på båda graferna bör visa sig vara desamma, eftersom man i slutändan får samma utfall med samma sannolikheter. Enligt kompositionslagen skriver vi .

Här , eftersom hela gruppen av händelser, bestående av endast en händelse, som inträffar med hundra procent sannolikhet, genererar noll osäkerhet. Samtidigt, enligt Shannon själv, dyker koefficienten upp eftersom det andra valet bara dyker upp hälften av alla gånger.

I kompositionslagen kan det första steget inte bestå av två möjligheter, utan av ett större antal möjligheter med motsvarande sannolikheter , , , ...

Lagen om sammansättning är ett slags generalisering av entropins additiva egenskap, även om den inte följer direkt av denna egenskap. Låt verkligen något experiment bestå av sex lika sannolika utfall. Låt dessa resultat delas upp i tre lika delar: i det första steget väljs en av de tre delarna, i det andra steget väljs utfallet inom motsvarande del. Då kan du skriva .

Den resulterande ekvationen kan skrivas om så här:

.

Självklart i allmänhet .

Men samma resultat kan erhållas från andra överväganden.

Antag att det finns ett slumpmässigt experiment med lika sannolika utfall och ett annat slumpmässigt experiment med lika sannolika utfall. Låt dessa två slumpmässiga experiment inte ha något med varandra att göra. Men i alla fall kan de betraktas som ett kombinerat experiment, där ett separat utfall är att det e resultatet av det första experimentet och det th resultatet av det andra experimentet inträffade. I ett sådant kombinerat experiment finns det redan lika sannolika resultat. Eftersom osäkerheten i de två experimenten inte bör förändras beroende på en sådan synvinkelförändring, då .

Som en konsekvens av detta resultat, , där  är ett icke-negativt heltal. Om , då tar den sista likheten formen , medan den förblir en sann jämlikhet.

Sammansättningslagen tillåter oss att uttrycka entropin för en sannolikhetsfördelning, där alla sannolikheter är rationella tal, som en viktad summa av funktioner . Låt det faktiskt finnas en komplett grupp av händelser av oförenliga händelser med sannolikheter , , …, , där , , är naturliga tal, . Då kan man skriva

.

Från denna ekvation är det redan möjligt att uttrycka .

Egentligen är det inte känt exakt var Shannon fick sin kompositionslag ifrån. Kanske ville han bara att hans entropi skulle visa sig likna Hartleys, och han kom på ett sådant villkor (sammansättningslag) från vilket Shannons entropi skulle erhållas på ett unikt sätt.

Sats:

den enda funktionen som uppfyller de tre Shannon-villkoren som ställs på den har formen , där  är en positiv konstant, och logaritmen tas i vilken bas som helst som är större än en.

Bevis .

Beviset reduceras till att ta reda på funktionens form .

För alla naturliga och godtyckligt stora naturliga , kan man hitta ett sådant naturligt och icke-negativt heltal att (detta är uppenbart). Potentiera båda sidor av ojämlikheten och dividera med , får vi , varifrån . Eftersom basen för den naturliga logaritmen är större än en, ändras inte tecknet på ojämlikheterna.

Å andra sidan, baserat på monotoniteten hos , kan vi skriva , , varifrån på samma sätt , . Då kan du skriva . Passerar till gränsen med avseende på , vi får . Därför , där  är en godtycklig positiv konstant,  är en godtycklig naturlig bas av logaritmen (större än en). Konstantens godtycke hänger inte bara ihop med att den reduceras i täljaren och nämnaren, utan också med att basen för logaritmen väljs godtyckligt. Du kan gå till den naturliga logaritmen och få . Detta tyder på att basen för logaritmen inte behöver vara ett naturligt tal. Vidare, genom att använda representationen av funktionen i termer av funktionen , kan vi skriva eftersom vilket reellt tal som helst kan approximeras med vilken grad av noggrannhet som helst med ett rationellt tal, och funktionen i sig är kontinuerlig (det vill säga den ändras obetydligt med ett litet tal förändring i argumentet), föreslog Shannon att man skulle använda denna formel för sannolikheter givna av reella tal.

Teoremet har bevisats .

Om sannolikheten är noll, är det nödvändigt att betrakta produktens gräns  som tenderar mot noll:

Shannons maximala entropi och Lagrange multiplikatormetoden

Det kan bevisas [4] att Shannon-entropin får ett maximalt värde på en enhetlig fördelning. För att bevisa detta hittar vi det villkorliga maximum för Shannon-entropin under normaliseringsvillkoret .

För att göra detta använder vi Lagrange-multiplikatormetoden för att hitta villkorliga extrema. Denna metod är i korthet följande.

Låt oss anta att det krävs att hitta ett lokalt extremum av en kontinuerlig funktion av variabler som har partiella derivator med avseende på alla variabler, förutsatt att ,..., , där ,...,  är kontinuerliga funktioner som har partiella derivator med avseende på alla variabler, . Sedan är Lagrange-funktionen sammansatt av formen , där talen kallas Lagrange-multiplikatorer.

Ett nödvändigt villkor för existensen av ett villkorligt extremum vid någon tidpunkt är lika med noll eller att alla partiella derivator av dess Lagrange-funktion inte existerar vid denna punkt. Därför kompileras och löses ett system från de partiella derivatorna av Lagrange-funktionen, lika med noll, såväl som från de villkor som åläggs extremumet. Systemets lösning (om det finns) är koordinaten för extremumet, såväl som värdena för Lagrange-multiplikatorerna.

När det gäller Shannon-entropin har Lagrange-funktionen formen: .

Låt oss skriva ner ekvationssystemet med det nödvändiga villkoret för existensen av ett extremum:

När vi löser det får vi:

Eftersom alla ekvationer är lika, då , .

Så punkten där ett extremum kan existera är den enda. Med tanke på att funktionen är kontinuerlig och icke-negativ definitiv, med minimivärdet noll (i det fall när en av sannolikheterna är lika med en och alla de andra är lika med noll), så är det hittade extremumet punkten för globalt villkorligt maximum, och själva maximumet är lika med .

Det kan också bevisas att i uppsättningen av sannolikheter för inkompatibla elementära utfall, ökar varje förändring av de två sannolikheterna mot deras anpassning (utan att ändra antalet utfall själva) fördelningens entropi.

Det är lätt att bevisa det. Eftersom endast två sannolikheter ändras, till exempel, och , förblir de andra sannolikheterna oförändrade. Därför kommer termerna som ingår i entropiformeln, associerade med andra sannolikheter, att förbli oförändrade och kommer inte att påverka ökningen av entropi. Samtidigt förblir också beloppet oförändrat (av samma anledning). Därför räcker det att utföra beviset för endast två oförenliga utfall som bildar en komplett grupp av händelser - då kan påståendet anses bevisat för ett godtyckligt antal utfall.

Beteckna och överväga funktionen .

Dess vs. plot är mycket lik en inverterad parabel som passerar genom ursprunget. Maximum nås vid punkten . Dessutom är denna funktion spegelsymmetrisk med avseende på linjen . Detta följer av det faktum att . Därför är det, baserat på grafen, uppenbart att varje förändring av sannolikheterna mot utjämning leder till en ökning av entropin.

Entropi av en kontinuerlig fördelning

Shannon skrev ursprungligen ned [3] följande formel för entropin för en kontinuerlig fördelning, som också är känd som differentialentropi :

.

Här  är den okända sannolikhetsdensitetsfördelningsfunktionen för den slumpmässiga variabeln . (Om , då ersätts integranden av sin gräns vid denna punkt .) Men till skillnad från Shannons formel för entropin för en diskret fördelning, är denna formel inte resultatet av någon härledning (Shannon ersatte helt enkelt summans tecken med tecknet av integralen). Och strängt taget kan den inte härledas genom en successiv övergång från en diskret till en kontinuerlig entropiformel genom att beräkna gränsen för integralpartialsummor av Riemannintegralen [5] (ett oändligt värde kommer att erhållas). Ändå har differentiell entropi betydelsen av den genomsnittliga osäkerheten i valet av en stokastisk variabel med en godtycklig fördelningslag, minus osäkerheten för en stokastisk variabel likformigt fördelad i ett enhetsintervall.

Förutom differentiell entropi är engelska också kända.  Kullback–Leibler divergens och engelska.  Principle_of_maximum_entropy#Continuous_case . Men vidare, för att förklara principen för maximal entropi, kommer den att användas just differentialentropin.

Maximal differentialentropi och variationskalkylen

Det kan bevisas att differentialentropin får ett maximalt värde på en enhetlig fördelning. För att bevisa detta hittar vi det villkorliga maximum för differentialentropin förutsatt att .

Under dessa förhållanden är det nödvändigt att hitta en sådan funktion att differentialentropiintegralen tar det maximala värdet. Det är klart att i det här fallet blir själva funktionens form en slags variabel, så det är nödvändigt att använda variationskalkylen [3] , vars huvuduppgift är att hitta en funktion på vilken den givna funktionen når extrem. värden.

Variationsmetoden liknar Lagrangemetoden och är i korthet följande. Låt en funktional ges med en integrand med kontinuerliga första partiella derivator, kallad Lagrange-funktionen. Om denna funktion når ett extremum på någon funktion , måste en partiell differentialekvation uppfyllas för den , kallad Euler-Lagrange-ekvationen . Med andra ord är denna ekvation ett nödvändigt villkor för att det ska finnas ett extremum av det funktionella på funktionen . Om ytterligare ett villkor för formen åläggs funktionen kallas det önskade extremumet villkorligt, och Lagrange-funktionen tar formen , och differentialekvationen måste lösas redan för denna nya funktion. Den hittade funktionen beror inte bara på , utan också på parametern . Sedan måste du ersätta villkoren i integralen och hitta .

När det gäller differentiell entropi tar Lagrange-funktionen formen . Sedan , varifrån Euler-Lagrange-ekvationen tar formen .

Lösningen på denna ekvation är en funktion , det vill säga en konstant på . Vi ersätter det i skicket och får .

Det är tydligt att en sådan ekvation inte har några lösningar, precis som det är tydligt att en slumpvariabel inte kan fördelas enhetligt över hela regionen av reella tal. Låt alla möjliga värden ligga på något intervall . Sedan , varifrån . För alla andra är det sant .

Extrema distributioner

I sig själv ger det funna funktionella (Shannons entropi i diskret eller differentiell form) ännu inget. Eftersom ingenting är känt om utfallen av ett slumpmässigt experiment, dikterar principen om maximal entropi att alla utfall ges lika sannolikheter. Om vi ​​talar om en kontinuerlig stokastisk variabel, så antas det att den är jämnt fördelad. Men för att genomföra ett sådant möte krävs ingen funktionalitet. Den funktionella tillåter endast en kvantitativ jämförelse av osäkerheterna i olika fördelningar.

Innebörden av principen om maximal entropi börjar dyka upp när några begränsningar införs på sannolikhetsfördelningen. Principen för maximal entropi i detta fall är att hitta den maximala entropin under de pålagda restriktionerna. Den sålunda erhållna fördelningen kallas extremal.

Låt oss hitta entropimaximum i de fall då vissa restriktioner införs på fördelningen av en slumpvariabel, till exempel, några av dess moment är kända. När man använder metoden för Lagrange-multiplikatorer och metoden för beräkning av variationer, kommer det att visas att:

Ingenting är känt om den slumpmässiga variabeln (diskreta och kontinuerliga fall)

I det här fallet föreskriver principen om maximal entropi att den slumpmässiga variabeln är jämnt fördelad. Det har redan visat sig tidigare att Shannon-entropin i vilken som helst (diskret eller kontinuerlig) form får maximalt möjliga värde på en sådan fördelning.

Endast matematiska förväntningar är kända (diskreta fall)

Antag att endast den matematiska förväntan av den diskreta sannolikhetsfördelningen för någon slumpvariabel : är känd . Vad är fördelningen i det här fallet? Distributionen är föremål för ytterligare begränsningar:

Enligt principen om maximal entropi är det nödvändigt att maximera funktionen under dessa förhållanden

Vi komponerar Lagrange-funktionen och hittar punkterna för ett möjligt extremum:

Systemet med partiella derivat och pålagda villkor har formen:

Subtraherar vi -e från den första ekvationen får vi .

Genom att kombinera den resulterande ekvationen till ett system med normaliseringsvillkoret och lösa det får vi:

, varifrån .

Nu följer det av den e ekvationen .

Slutligen, baserat på ekvationen för förväntan, kan vi skriva , varifrån följer .

Slutligen kan det ursprungliga systemet representeras som:

Det är ganska lätt att bevisa att lösningen på systemets andra ekvation alltid existerar och är unik, även om den inte alltid kan representeras som en explicit funktion av argumentet . Om så önskas (men inte nödvändigtvis) kan det uttryckas från den tredje ekvationen i termer av . Men viktigast av allt, när du byter in i den första ekvationen får du en diskret sannolikhetsfördelning med förväntan .

Eftersom den hittade lösningen är unik är den hittade punkten med största sannolikhet entropiextremumet, och detta extremum är det globala villkorliga maximumet.

Den hittade sannolikhetsfördelningen kallas engelska. Boltzmann_distribution , som också är känd som Gibbs-distributionen .  

Endast det andra initiala ögonblicket är känt (diskret fall)

Antag att endast det andra initiala momentet av den diskreta sannolikhetsfördelningen för någon slumpvariabel är känt : . Vad är fördelningen i det här fallet?

Det är tydligt att det här fallet inte skiljer sig från det föregående, förutom att värdena måste ersättas med värden , måste ersättas med . Den slutliga fördelningen kommer att se ut

Det är lätt att se i det här fallet att om , då .

Förväntningen och det andra initiala ögonblicket är kända (diskret fall)

Lagrange-funktionen har i detta fall formen

Ekvationssystemet, som är ett nödvändigt villkor för existensen av ett extremum, har formen:

. Det går att komma ihåg

Problemet med att bevisa existensen och unikheten hos en lösning i detta fall är mycket svårare. Dessutom problemet med att hitta parametrarna och från de andra och tredje ekvationerna i systemet. Men om beviset är möjligt, kommer extremfördelningen med givna parametrar att ha bara den hittade formen.

Endast förväntat värde är känt (kontinuerligt skiftläge)

Antag att vi bara känner till förväntan på en kontinuerlig sannolikhetsfördelning av någon stokastisk variabel : . Vad är sannolikhetstäthetsfördelningsfunktionen i detta fall?

Distributionen är föremål för ytterligare begränsningar:

Enligt principen om maximal entropi är det nödvändigt att maximera funktionen under dessa förhållanden

Vi komponerar Lagrange-funktionen och hittar , för vilket ett extremum är möjligt :

Euler-Lagrange-ekvationen har i detta fall formen .

Dess lösning är funktionen , det vill säga exponenten.

Det är tydligt att arean under grafen för en sådan funktion kan vara ändlig endast om inte mer än en integrationsgräns tenderar till oändlighet. Därför kommer vi att anta att en slumpvariabel bara kan ta värden på någon ändlig eller semi-oändlig domän , inte nödvändigtvis bara kopplad. Vid alla andra punkter kommer funktionen att anses vara lika med noll.

För att hitta värdena för koefficienterna och , är det nödvändigt att komponera ett ekvationssystem från de villkor som ställs på fördelningen och lösa det. Systemet ser ut som:

och kan komma ihåg .

Här är alla integraler "tagna", så det kan uttryckas unikt i termer  av - det är bara nödvändigt att specificera området mer specifikt . I det här fallet är den hittade lösningen unik.

Eftersom koefficienten uttrycks unikt genom , då är den unik. På grund av det unika med den hittade lösningen maximerar funktionen det funktionella . Funktionen har då formen .

Den hittade fördelningen kallas Boltzmann (eller Gibbs) fördelningen av en kontinuerlig slumpvariabel.

Endast det andra initiala ögonblicket är känt (kontinuerligt skiftläge)

Antag att endast det andra initiala momentet av sannolikhetsfördelningen för någon kontinuerlig stokastisk variabel är känt : . Vad är fördelningen i det här fallet?

Lagrange-funktionen har i detta fall formen .

Euler-Lagrange-ekvationen har formen .

Dess lösning är funktionen .

Det är tydligt att arean under grafen endast kan vara ändlig i fallet med . Om , då erhålls en enhetlig fördelning, vilket redan har övervägts tidigare.

För att hitta värdena för koefficienterna och måste du komponera ett ekvationssystem från de villkor som ställs på fördelningen och lösa det:

Eftersom det finns en bestämd Euler-Poisson- integral här kan systemet skrivas som:

, varifrån slutligen

Så fördelningen är en normalfördelning med noll medelvärde och varians .

Förväntningen och det andra initiala ögonblicket är kända (kontinuerligt skiftläge)

Lagrange-funktionen har i detta fall formen .

Euler-Lagrange-ekvationen har formen .

Dess lösning är funktionen .

Låt oss ta det igen .

För att hitta värdena för koefficienterna , , , är det nödvändigt att komponera ett ekvationssystem från de villkor som ställs på fördelningen och lösa det:

Graden av ett tal i integraler kan representeras som: , där , .

Sedan

,

var

.

Uppenbarligen är variansen i fördelningen .

Slutligen kan funktionen skrivas som .

Så vi fick en normalfördelning med medelvärde och varians .

Det är lätt att se att det initialt var möjligt att inte ställa in det andra initiala momentet av fördelningen, utan dess varians, och ändå skulle en normalfördelning med de givna parametrarna ha erhållits.

Tabell över extrema distributioner

I tabellen nedan maximerar varje listad distribution entropin under de villkor som gäller för distributionen, som anges i den tredje kolumnen. Den fjärde kolumnen visar definitionsdomänen för den slumpmässiga variabeln.

Tabell över extrema fördelningar
Distribution Fungera

sannolikheter/densitet

sannolikheter

Begränsningar,

ovanpå

distribution

Område

definitioner

slumpmässig

kvantiteter

Enhetlig

(diskret)

Inte
Enhetlig

(kontinuerlig)

Inte
Bernoulli
Geometrisk
Exponentiell
Laplace
engelsk  Asymmetrisk_Laplace_distribution
Pareto
Vanligt
engelsk  Von_Mises_distribution
Rayleigh
Beta
Cauchy
engelsk  Chi_distribution
chi-kvadrat
engelsk  Erlang_distribution
Gamma
lognormal
Maxwell
Weibulla
Flerdimensionell

vanligt


Binom
Poisson

Se även

Anteckningar

  1. ↑ 12 Jaynes , ET Information Theory and Statistical Mechanics  (engelska)  // Physical Review  : journal. - 1957. - Vol. Serie II , nr. 4 . - P. 620-630 . - doi : 10.1103/PhysRev.106.620 . - .
  2. Jaynes, ET Information Theory and Statistical Mechanics II  (engelska)  // Physical Review  : journal. - 1957. - Vol. Serie II , nr. 2 . - S. 171-190 . - doi : 10.1103/PhysRev.108.171 . - .
  3. ↑ 123 C.E. _ _ Shannon. En matematisk teori om kommunikation . Arkiverad från originalet den 29 mars 2016.
  4. I.N. Beckman. Informatik. Föreläsningskurs . — P. Entropibegreppets bildningsstadier . Arkiverad från originalet den 13 december 2016.
  5. V.A. Fursov. Informationsteori. - Samara: SGAU, 2011. - S. 15.

Litteratur

Länkar