Informationsentropi

Den aktuella versionen av sidan har ännu inte granskats av erfarna bidragsgivare och kan skilja sig väsentligt från versionen som granskades den 17 januari 2020; kontroller kräver 35 redigeringar .

Informationsentropi  är ett mått på osäkerheten i ett visst system (i statistisk fysik eller informationsteori ), i synnerhet oförutsägbarheten av utseendet av någon karaktär i det primära alfabetet . I det senare fallet, i frånvaro av informationsförlust, är entropin numeriskt lika med mängden information per symbol för det överförda meddelandet.

Till exempel, i en sekvens av bokstäver som utgör en mening på ryska, visas olika bokstäver med olika frekvenser , så osäkerheten om förekomsten för vissa bokstäver är mindre än för andra. Om vi ​​tar hänsyn till att vissa kombinationer av bokstäver (i det här fallet talar de om entropin av -: e ordningen, se nedan ) är mycket sällsynta, så minskar osäkerheten ännu mer.

Formella definitioner

Binär informationsentropi , i frånvaro av informationsförlust, beräknas med Hartley-formeln :

,

var  är kraften i alfabetet,  är mängden information i varje symbol i meddelandet. För en slumpvariabel som tar oberoende slumpmässiga värden med sannolikheter ( ), förvandlas Hartleys formel till Shannons formel:

Denna kvantitet kallas också för den genomsnittliga meddelandeentropin . Storheten kallas partiell entropi , som bara kännetecknar -e-tillståndet.

Således är systemets entropi summan med motsatt tecken av alla relativa förekomstfrekvenser av tillståndet (händelsen) med numret multiplicerat med deras binära logaritmer [1] . Denna definition för diskreta slumpmässiga händelser kan formellt utvidgas till kontinuerliga distributioner som ges av sannolikhetstäthetsfördelningen , men den resulterande funktionalen kommer att ha något annorlunda egenskaper (se differentiell entropi ).

I allmänhet kan basen för logaritmen i definitionen av entropi vara allt större än 1 (eftersom ett alfabet som består av endast ett tecken inte kan förmedla information); valet av basen för logaritmen bestämmer enheten för entropin. För informationssystem baserade på det binära talsystemet är måttenheten för informationsentropi (faktiskt information) lite . I problem med matematisk statistik kan det vara bekvämare att använda den naturliga logaritmen , i vilket fall enheten för informationsentropi är nat .

Shannons definition

Claude Shannon föreslog att informationsvinsten är lika med den förlorade osäkerheten och ställde kraven för dess mätning:

  1. åtgärden måste vara kontinuerlig. det vill säga en förändring i värdet av sannolikhetsvärdet med ett litet belopp bör orsaka en liten nettoförändring i funktionen;
  2. i fallet när alla alternativ (bokstäver i exemplet ovan) är lika sannolika, bör en ökning av antalet alternativ (bokstäver) alltid öka värdet på funktionen;
  3. det ska vara möjligt att göra ett val (bokstäver i vårt exempel) i två steg, där värdet av funktionen för slutresultatet ska vara summan av funktionerna i mellanresultaten.[ klara upp ]

Därför måste entropifunktionen uppfylla villkoren

  1. är definierad och kontinuerlig för alla , där för alla och . (Denna funktion beror bara på sannolikhetsfördelningen, inte alfabetet.)
  2. För positiva heltal måste följande olikhet gälla:
  3. För positiva heltal , där , måste likheten hålla

Shannon visade [2] att den enda funktion som uppfyller dessa krav är

där  är en positiv konstant (och behövs egentligen bara för att välja entropienheten; att ändra denna konstant motsvarar att ändra basen för logaritmen).

Shannon fastställde att mätningen av entropi ( ) som tillämpas på en informationskälla kan bestämma minimibandbreddskraven som krävs för tillförlitlig överföring av information i form av kodade binära tal. För att härleda Shannon-formeln är det nödvändigt att beräkna den matematiska förväntan av "mängden information" som finns i figuren från informationskällan. Shannon-entropimåttet uttrycker osäkerheten i realiseringen av en slumpvariabel. Entropi är alltså skillnaden mellan informationen i ett meddelande och den del av informationen som är exakt känd (eller mycket förutsägbar) i meddelandet. Ett exempel på detta är språkets redundans  – det finns tydliga statistiska mönster i utseendet på bokstäver, par av på varandra följande bokstäver, trippel etc. (se Markov-kedjor ).

Definitionen av Shannons entropi är relaterad till begreppet termodynamisk entropi . Boltzmann och Gibbs arbetade mycket med statistisk termodynamik, vilket bidrog till acceptansen av ordet "entropi" i informationsteori. Det finns ett samband mellan termodynamisk och informationsentropi. Till exempel kontrasterar Maxwells demon också informationens termodynamiska entropi, och att få vilken mängd information som helst är lika med förlorad entropi.

Definition med hjälp av egen information

Det är också möjligt att bestämma entropin för en slumpvariabel genom att först introducera konceptet med fördelningen av en slumpvariabel med ett ändligt antal värden: [3]

och egen information :

Då definieras entropin som:

Informationsentropienheter

Måttenheten för mängden information och entropi beror på basen för logaritmen: bit , nat , trit eller hartley .

Egenskaper

Entropi är en storhet som definieras inom ramen för en probabilistisk modell för en datakälla . Att kasta ett mynt har till exempel entropi:

bitar per kast (förutsatt att det är oberoende), och antalet möjliga tillstånd är lika med: möjliga tillstånd (värden) ("huvuden" och " svansar ").

För en källa som genererar en sträng som endast består av bokstäverna "A", är entropin noll: , och antalet möjliga tillstånd är: det möjliga tillståndet (värdet) ("A") och beror inte på basen av logaritm. Detta är också information som också måste beaktas. Ett exempel på minnesenheter som använder bitar med en entropi lika med noll, men med en informationsmängd lika med ett möjligt tillstånd , det vill säga inte lika med noll, är databitar inspelade i ROM , där varje bit endast har en möjlig tillstånd .

Så, till exempel, kan det fastställas empiriskt att entropin för en engelsk text är 1,5 bitar per tecken, vilket kommer att variera för olika texter. Datakällans entropigrad betyder det genomsnittliga antalet bitar per dataelement som krävs för deras (data)kryptering utan förlust av information, med optimal kodning.

  1. Vissa databitar kanske inte innehåller information. Till exempel lagrar datastrukturer ofta redundant information eller har identiska sektioner oavsett informationen i datastrukturen.
  2. Mängden entropi uttrycks inte alltid som ett heltal av bitar.

Matematiska egenskaper

  1. Icke-negativitet : .
  2. Boundedness : , som följer av Jensens olikhet för den konkava funktionen och . Om alla element från är lika sannolika, .
  3. Om oberoende, då .
  4. Entropi är en uppåt konvex funktion av sannolikhetsfördelningen av element.
  5. Om de har samma sannolikhetsfördelning av element, då .

Effektivitet

Alfabetet kan ha en sannolikhetsfördelning som är långt ifrån enhetlig . Om originalalfabetet innehåller tecken kan det jämföras med ett "optimerat alfabet" vars sannolikhetsfördelning är enhetlig. Förhållandet mellan entropin för det ursprungliga alfabetet och det optimerade alfabetet är effektiviteten hos det ursprungliga alfabetet, vilket kan uttryckas i procent. Effektiviteten hos det ursprungliga symboliska alfabetet kan också definieras som dess -ary entropi.

Entropi begränsar den maximala möjliga förlustfria (eller nästan förlustfria) komprimeringen som kan realiseras med en teoretiskt typisk uppsättning eller, i praktiken, Huffman -kodning , Lempel-Ziv-Welch- kodning eller aritmetisk kodning .

Variationer och generaliseringar

b -är entropi

I allmänhet ges b - entropin (där b är 2, 3, …) för en källa med ett initialt alfabet och en diskret sannolikhetsfördelning där är en sannolikhet ( ) av:

I synnerhet när , får vi den vanliga binära entropin, mätt i bitar . Med får vi en trinär entropi mätt i trits (en trit har en informationskälla med tre ekvisannolika tillstånd). När vi får information mätt i nats .

Villkorlig entropi

Om ordningen på tecknen i alfabetet inte är oberoende (till exempel på franska följs bokstaven "q" nästan alltid av "u", och efter ordet "peredovik" i sovjetiska tidningar, ordet "produktion" eller "arbete" följdes vanligtvis), mängden information som bärs sekvensen av sådana symboler (och därmed entropin) är mindre. Villkorlig entropi används för att redogöra för sådana fakta.

Den villkorliga entropin av första ordningen (liknande Markov-modellen av första ordningen) är entropin för alfabetet, där sannolikheterna för utseendet av en bokstav efter den andra är kända (det vill säga sannolikheterna för tvåbokstavskombinationer) :

var  är tillståndet beroende av det föregående tecknet och  är sannolikheten att det var det föregående tecknet.

Till exempel för det ryska språket utan bokstaven "e" [4] .

När det gäller privata och allmänna villkorliga entropier beskrivs informationsförluster fullständigt under dataöverföring i en bullrig kanal. För detta används så kallade kanalmatriser . För att beskriva förlusten på källsidan (det vill säga den skickade signalen är känd), överväg den villkorade sannolikheten för att ta emot en symbol av mottagaren , förutsatt att symbolen skickades . I det här fallet har kanalmatrisen följande form:

Sannolikheterna som ligger längs diagonalen beskriver sannolikheten för korrekt mottagning, och summan av alla element i en rad ger 1. Förlusterna per sänd signal beskrivs i termer av partiell villkorlig entropi:

För att beräkna överföringsförlusten för alla signaler används den totala villkorade entropin:

betyder entropin från källsidan,  entropin från mottagarsidan betraktas på liknande sätt: istället indikeras den överallt (som summerar elementen i strängen kan du få , och elementen i diagonalen betyder sannolikheten att exakt tecknet som togs emot skickades, det vill säga sannolikheten för korrekt överföring).

Ömsesidig entropi

Ömsesidig entropi eller unionsentropi är utformad för att beräkna entropin för sammankopplade system (entropin för det gemensamma uppträdandet av statistiskt beroende meddelanden) och betecknas med , där kännetecknar sändaren, och  - mottagaren.

Förhållandet mellan sända och mottagna signaler beskrivs av gemensamma händelsesannolikheter , och endast en matris krävs för att fullständigt beskriva kanalens egenskaper:

För ett mer generellt fall, när inte en kanal beskrivs, utan interagerande system som helhet, behöver matrisen inte vara kvadratisk. Summan av alla element i kolumnen med talet ger , summan av raden med numret är , och summan av alla element i matrisen är 1. Den gemensamma sannolikheten för händelser och beräknas som produkten av den initiala och villkorade sannolikheten:

Villkorliga sannolikheter produceras av Bayes formel . Det finns alltså all data för att beräkna käll- och mottagarentropierna:

Ömsesidig entropi beräknas genom successiv rad (eller kolumn) summering av alla matrissannolikheter multiplicerat med deras logaritm:

Måttenheten är bit/två tecken, detta beror på att den ömsesidiga entropin beskriver osäkerheten för ett teckenpar: skickade och mottagna. Genom enkla transformationer får vi också

Ömsesidig entropi har egenskapen att informationen är fullständig  - alla övervägda kvantiteter kan erhållas från den.

Historik

1948 , medan han undersökte problemet med rationell överföring av information genom en bullrig kommunikationskanal, föreslog Claude Shannon en revolutionerande probabilistisk metod för att förstå kommunikation och skapade den första riktigt matematiska teorin om entropi . Hans sensationella idéer fungerade snabbt som grunden för utvecklingen av två huvudområden: informationsteori , som använder begreppet sannolikhet och ergodisk teori för att studera de statistiska egenskaperna hos data- och kommunikationssystem, och kodningsteori , som huvudsakligen använder algebraiska och geometriska verktyg. att utveckla effektiva koder.

Begreppet entropi som ett mått på slumpmässighet introducerades av Shannon i hans artikel " A Mathematical Theory of Communication " , publicerad i två delar i Bell System Technical Journal 1948.  

Anteckningar

  1. Denna representation är praktisk för att arbeta med information som presenteras i binär form; i allmänhet kan basen för logaritmen vara annorlunda.
  2. Shannon, Claude E. A Mathematical Theory of Communication  (ospecificerad)  // Bell System Technical Journal. - 1948. - Juli ( vol. 27 , nr 3 ). - S. 419 . - doi : 10.1002/j.1538-7305.1948.tb01338.x .
  3. Gabidulin E. M. , Pilipchuk N. I. Föreläsningar om informationsteori - MIPT , 2007. - P. 16. - 214 sid. — ISBN 978-5-7417-0197-3
  4. Lebedev D.S., Garmash V.A. Om möjligheten att öka hastigheten för överföring av telegrafmeddelanden. - M .: Electrosvyaz, 1958. - Nr 1. - S. 68-69.

Se även

Länkar

Litteratur