Renyi entropi

I informationsteorin är Rényi-entropin , en generalisering av Shannon -entropin , en familj av funktionaler som används som ett mått på den kvantitativa mångfalden, osäkerheten eller slumpmässigheten hos något system. Uppkallad efter Alfred Renyi .

Om något system har en diskret uppsättning tillgängliga tillstånd , som motsvarar sannolikhetsfördelningen för (det vill säga sannolikheten för att systemet är i tillstånd ), så definieras Rényi-entropin med parametern (at och ) för systemet som

,

där vinkelparenteser anger den matematiska förväntan genom distribution ( är sannolikheten för att systemet är i ett visst tillstånd som en slumpvariabel ), tas logaritmen i bas 2 (för att räkna i bitar) eller i en annan lämplig bas (den måste vara större än 1). Basen för logaritmen bestämmer enheten för entropin. Så i matematisk statistik används vanligtvis den naturliga logaritmen .

Om alla sannolikheter är , då är Rényi entropin för alla . Annars minskar -entropin som en funktion av . Dessutom ger högre värden (som går till oändligheten) Renyi-entropivärdena som till stor del endast bestäms av de högsta sannolikheterna för händelser (det vill säga bidraget från tillstånd med låg sannolikhet till entropin minskar). Mellanfallet i gränsen ger Shannon-entropin, som har speciella egenskaper. Lägre värden (som går till noll) ger ett Rényi-entropivärde som väger möjliga händelser mer jämnt, mindre beroende av deras sannolikheter. Och när vi får den maximala möjliga -entropin lika oavsett fördelningen (om bara ).

Innebörden av parametern kan beskrivas, talat informellt, som känsligheten hos den funktionella för avvikelsen av systemets tillstånd från jämviktstillståndet: ju större , desto snabbare minskar entropin när systemet avviker från jämviktstillståndet. Innebörden av begränsningen är att ge en ökning av entropin när systemet närmar sig ett jämviktstillstånd (mer troligt). Detta krav är naturligt för begreppet entropi . Det bör noteras att för Tsallis-entropin , som är ekvivalent med Renyi-entropin upp till en monoton transformation oberoende av , utelämnas ofta motsvarande begränsning, medan för negativa värden på parametern, istället för att maximera entropin, dess minimering är använd.

Rényi-entropin spelar en viktig roll i ekologi och statistik, och definierar de så kallade mångfaldsindexen . Rényi-entropin är också viktig i kvantinformation och kan användas som ett mått på komplexitet . I Heisenberg-kedjan beräknades Rényi-entropin i termer av modulära funktioner beroende på . De leder också till ett spektrum av fraktala dimensionsexponenter .

H α för vissa specifika värden av α

Vissa specialfall

.

Denna entropi kallas ibland för Hartley-entropin . Det används till exempel i formuleringen av Boltzmann-principen .

. ,

där och är oberoende slumpvariabler jämnt fördelade på mängden med sannolikheter ( ). Kvadratisk entropi används inom fysik , signalbehandling , ekonomi .

,

som kallas min-entropi eftersom det är det minsta värdet av . Denna entropi är också ett degenererat fall, eftersom dess värde endast bestäms av det mest sannolika tillståndet.

Ojämlikheter för olika värden av α

De två sista fallen är relaterade av . Å andra sidan kan Shannon-entropin vara godtyckligt hög för en distribution X med en fast min-entropi.

eftersom . , eftersom . enligt Jensens ojämlikhet .

Avvikelser (avvikelser) av Renyi

Förutom entropifamiljen definierade Rényi också en rad divergensmått (divergenser) som generaliserade Kullback–Leibler-divergensen . Formlerna i detta avsnitt är skrivna i en allmän form - genom en logaritm i en godtycklig bas. Därför måste du förstå att varje given formel är en familj av ekvivalenta funktionaler definierade upp till en konstant (positiv) faktor.

Rényi-divergensen med parameter , där och , fördelning i förhållande till distribution (eller "avstånd från till ") definieras som

eller (formellt, utan att ta hänsyn till normaliseringen av sannolikheter)

, .

Liksom Kullback–Leibler-divergensen av , är Rényi-divergensen icke-negativ för .

Vissa specialfall

 : minus logaritmen av summan av sannolikheter så att motsvarande .

Finansiell (spel) tolkning

Överväg ett spel (lotteri) genom att gissa någon slumpmässig variabel. De officiella vinstsatserna är kända och publiceras som en sannolikhetsfördelning . Under tiden kanske den sanna sannolikhetsfördelningen inte sammanfaller med . Att känna till den sanna fördelningen gör att spelaren kan tjäna. Den förväntade kapitaltillväxten är exponentiell. Med tanke på att fördelningen är korrekt kan spelaren beräkna (hans) matematiska förväntningar på kapitalets exponentiella tillväxttakt (per spelomgång) [Soklakov2020 ]:

Förväntad tillväxt


där anger det relativa måttet på Arrow-Pratt riskaversion.

Betecknar den sanna fördelningen (inte nödvändigtvis sammanfaller med spelarens åsikt ), den faktiska tillväxten som erhålls kan beräknas i gränsen för ett spel med flera spel [Soklakov2020 ]:

Faktisk höjd

Varför är fallet α = 1 speciell

Värdet på , som motsvarar Shannon-entropin och Kullback-Leibler-divergensen , är speciellt eftersom endast i detta fall kan man extrahera variablerna A och X från den gemensamma sannolikhetsfördelningen så att

för entropi och

för divergens.

Det senare innebär att om vi letar efter en fördelning som minimerar avvikelserna för vissa underliggande mått , och vi får ny information som bara påverkar fördelningen , så kommer fördelningen inte att påverkas av ändringar av .

I det allmänna fallet uppfyller Rényi divergenser med godtyckliga värden villkoren för icke-negativitet, kontinuitet och invarians under transformation av koordinater för slumpvariabler. En viktig egenskap hos varje Rényi-entropi och divergens är additivitet: när och är oberoende, följer det att

och

.

De starkaste fallegenskaperna , som involverar definitionen av villkorad information och ömsesidig information från kommunikationsteori, kan vara mycket viktiga i andra applikationer, eller inte alls viktiga, beroende på kraven för dessa applikationer.

Renyi-korsentropi

Korsentropin för två fördelningar med sannolikheter och ( ) i det allmänna fallet kan definieras på olika sätt (beroende på tillämpningen), men måste uppfylla villkoret . En av definitionerna ( Shannon-korsettropin har en liknande egenskap ):

.

En annan definition som föreslås av A. Renyi kan erhållas från följande överväganden. Vi definierar det effektiva antalet systemtillstånd som det geometriska vägda medelvärdet av värden med vikter :

.

Detta innebär uttrycket för Shannons korsentropi

.

Genom att argumentera på ett liknande sätt definierar vi det effektiva antalet systemtillstånd som ett viktat effektlagsmedelvärde av värden med vikter och parameter :

.

Således har Renyi-korsentropin formen

.

Kontinuerlig skiftläge

För en formell generalisering av Shannon-entropin till fallet med en kontinuerlig fördelning används begreppet differentiell entropi . Rényi differentialentropin definieras på exakt samma sätt:

.

Rényi-divergensen i det kontinuerliga fallet är också en generalisering av Kullback–Leibler-divergensen och har formen

.

Definitionen av korsentropi, föreslagen av A. Renyi, i det kontinuerliga fallet har formen

.

I formlerna ovan , och är några sannolikhetstäthetsfunktioner , definierade på intervallet , och det antas att , .

Litteratur