Informationsentropi är ett mått på osäkerheten i ett visst system (i statistisk fysik eller informationsteori ), i synnerhet oförutsägbarheten av utseendet av någon karaktär i det primära alfabetet . I det senare fallet, i frånvaro av informationsförlust, är entropin numeriskt lika med mängden information per symbol för det överförda meddelandet.
Till exempel, i en sekvens av bokstäver som utgör en mening på ryska, visas olika bokstäver med olika frekvenser , så osäkerheten om förekomsten för vissa bokstäver är mindre än för andra. Om vi tar hänsyn till att vissa kombinationer av bokstäver (i det här fallet talar de om entropin av -: e ordningen, se nedan ) är mycket sällsynta, så minskar osäkerheten ännu mer.
Binär informationsentropi , i frånvaro av informationsförlust, beräknas med Hartley-formeln :
,
var är kraften i alfabetet, är mängden information i varje symbol i meddelandet. För en slumpvariabel som tar oberoende slumpmässiga värden med sannolikheter ( ), förvandlas Hartleys formel till Shannons formel:
Denna kvantitet kallas också för den genomsnittliga meddelandeentropin . Storheten kallas partiell entropi , som bara kännetecknar -e-tillståndet.
Således är systemets entropi summan med motsatt tecken av alla relativa förekomstfrekvenser av tillståndet (händelsen) med numret multiplicerat med deras binära logaritmer [1] . Denna definition för diskreta slumpmässiga händelser kan formellt utvidgas till kontinuerliga distributioner som ges av sannolikhetstäthetsfördelningen , men den resulterande funktionalen kommer att ha något annorlunda egenskaper (se differentiell entropi ).
I allmänhet kan basen för logaritmen i definitionen av entropi vara allt större än 1 (eftersom ett alfabet som består av endast ett tecken inte kan förmedla information); valet av basen för logaritmen bestämmer enheten för entropin. För informationssystem baserade på det binära talsystemet är måttenheten för informationsentropi (faktiskt information) lite . I problem med matematisk statistik kan det vara bekvämare att använda den naturliga logaritmen , i vilket fall enheten för informationsentropi är nat .
Claude Shannon föreslog att informationsvinsten är lika med den förlorade osäkerheten och ställde kraven för dess mätning:
Därför måste entropifunktionen uppfylla villkoren
Shannon visade [2] att den enda funktion som uppfyller dessa krav är
där är en positiv konstant (och behövs egentligen bara för att välja entropienheten; att ändra denna konstant motsvarar att ändra basen för logaritmen).
Shannon fastställde att mätningen av entropi ( ) som tillämpas på en informationskälla kan bestämma minimibandbreddskraven som krävs för tillförlitlig överföring av information i form av kodade binära tal. För att härleda Shannon-formeln är det nödvändigt att beräkna den matematiska förväntan av "mängden information" som finns i figuren från informationskällan. Shannon-entropimåttet uttrycker osäkerheten i realiseringen av en slumpvariabel. Entropi är alltså skillnaden mellan informationen i ett meddelande och den del av informationen som är exakt känd (eller mycket förutsägbar) i meddelandet. Ett exempel på detta är språkets redundans – det finns tydliga statistiska mönster i utseendet på bokstäver, par av på varandra följande bokstäver, trippel etc. (se Markov-kedjor ).
Definitionen av Shannons entropi är relaterad till begreppet termodynamisk entropi . Boltzmann och Gibbs arbetade mycket med statistisk termodynamik, vilket bidrog till acceptansen av ordet "entropi" i informationsteori. Det finns ett samband mellan termodynamisk och informationsentropi. Till exempel kontrasterar Maxwells demon också informationens termodynamiska entropi, och att få vilken mängd information som helst är lika med förlorad entropi.
Det är också möjligt att bestämma entropin för en slumpvariabel genom att först introducera konceptet med fördelningen av en slumpvariabel med ett ändligt antal värden: [3]
och egen information :
Då definieras entropin som:
Måttenheten för mängden information och entropi beror på basen för logaritmen: bit , nat , trit eller hartley .
Entropi är en storhet som definieras inom ramen för en probabilistisk modell för en datakälla . Att kasta ett mynt har till exempel entropi:
För en källa som genererar en sträng som endast består av bokstäverna "A", är entropin noll: , och antalet möjliga tillstånd är: det möjliga tillståndet (värdet) ("A") och beror inte på basen av logaritm. Detta är också information som också måste beaktas. Ett exempel på minnesenheter som använder bitar med en entropi lika med noll, men med en informationsmängd lika med ett möjligt tillstånd , det vill säga inte lika med noll, är databitar inspelade i ROM , där varje bit endast har en möjlig tillstånd .
Så, till exempel, kan det fastställas empiriskt att entropin för en engelsk text är 1,5 bitar per tecken, vilket kommer att variera för olika texter. Datakällans entropigrad betyder det genomsnittliga antalet bitar per dataelement som krävs för deras (data)kryptering utan förlust av information, med optimal kodning.
Alfabetet kan ha en sannolikhetsfördelning som är långt ifrån enhetlig . Om originalalfabetet innehåller tecken kan det jämföras med ett "optimerat alfabet" vars sannolikhetsfördelning är enhetlig. Förhållandet mellan entropin för det ursprungliga alfabetet och det optimerade alfabetet är effektiviteten hos det ursprungliga alfabetet, vilket kan uttryckas i procent. Effektiviteten hos det ursprungliga symboliska alfabetet kan också definieras som dess -ary entropi.
Entropi begränsar den maximala möjliga förlustfria (eller nästan förlustfria) komprimeringen som kan realiseras med en teoretiskt typisk uppsättning eller, i praktiken, Huffman -kodning , Lempel-Ziv-Welch- kodning eller aritmetisk kodning .
I allmänhet ges b - entropin (där b är 2, 3, …) för en källa med ett initialt alfabet och en diskret sannolikhetsfördelning där är en sannolikhet ( ) av:
I synnerhet när , får vi den vanliga binära entropin, mätt i bitar . Med får vi en trinär entropi mätt i trits (en trit har en informationskälla med tre ekvisannolika tillstånd). När vi får information mätt i nats .
Om ordningen på tecknen i alfabetet inte är oberoende (till exempel på franska följs bokstaven "q" nästan alltid av "u", och efter ordet "peredovik" i sovjetiska tidningar, ordet "produktion" eller "arbete" följdes vanligtvis), mängden information som bärs sekvensen av sådana symboler (och därmed entropin) är mindre. Villkorlig entropi används för att redogöra för sådana fakta.
Den villkorliga entropin av första ordningen (liknande Markov-modellen av första ordningen) är entropin för alfabetet, där sannolikheterna för utseendet av en bokstav efter den andra är kända (det vill säga sannolikheterna för tvåbokstavskombinationer) :
var är tillståndet beroende av det föregående tecknet och är sannolikheten att det var det föregående tecknet.
Till exempel för det ryska språket utan bokstaven "e" [4] .
När det gäller privata och allmänna villkorliga entropier beskrivs informationsförluster fullständigt under dataöverföring i en bullrig kanal. För detta används så kallade kanalmatriser . För att beskriva förlusten på källsidan (det vill säga den skickade signalen är känd), överväg den villkorade sannolikheten för att ta emot en symbol av mottagaren , förutsatt att symbolen skickades . I det här fallet har kanalmatrisen följande form:
… | … | |||||
---|---|---|---|---|---|---|
… | … | |||||
… | … | |||||
… | … | … | … | … | … | … |
… | … | |||||
… | … | … | … | … | … | … |
… | … |
Sannolikheterna som ligger längs diagonalen beskriver sannolikheten för korrekt mottagning, och summan av alla element i en rad ger 1. Förlusterna per sänd signal beskrivs i termer av partiell villkorlig entropi:
För att beräkna överföringsförlusten för alla signaler används den totala villkorade entropin:
betyder entropin från källsidan, entropin från mottagarsidan betraktas på liknande sätt: istället indikeras den överallt (som summerar elementen i strängen kan du få , och elementen i diagonalen betyder sannolikheten att exakt tecknet som togs emot skickades, det vill säga sannolikheten för korrekt överföring).
Ömsesidig entropi eller unionsentropi är utformad för att beräkna entropin för sammankopplade system (entropin för det gemensamma uppträdandet av statistiskt beroende meddelanden) och betecknas med , där kännetecknar sändaren, och - mottagaren.
Förhållandet mellan sända och mottagna signaler beskrivs av gemensamma händelsesannolikheter , och endast en matris krävs för att fullständigt beskriva kanalens egenskaper:
… | … | ||||
… | … | ||||
… | … | … | … | … | … |
… | … | ||||
… | … | … | … | … | … |
… | … |
För ett mer generellt fall, när inte en kanal beskrivs, utan interagerande system som helhet, behöver matrisen inte vara kvadratisk. Summan av alla element i kolumnen med talet ger , summan av raden med numret är , och summan av alla element i matrisen är 1. Den gemensamma sannolikheten för händelser och beräknas som produkten av den initiala och villkorade sannolikheten:
Villkorliga sannolikheter produceras av Bayes formel . Det finns alltså all data för att beräkna käll- och mottagarentropierna:
Ömsesidig entropi beräknas genom successiv rad (eller kolumn) summering av alla matrissannolikheter multiplicerat med deras logaritm:
Måttenheten är bit/två tecken, detta beror på att den ömsesidiga entropin beskriver osäkerheten för ett teckenpar: skickade och mottagna. Genom enkla transformationer får vi också
Ömsesidig entropi har egenskapen att informationen är fullständig - alla övervägda kvantiteter kan erhållas från den.
1948 , medan han undersökte problemet med rationell överföring av information genom en bullrig kommunikationskanal, föreslog Claude Shannon en revolutionerande probabilistisk metod för att förstå kommunikation och skapade den första riktigt matematiska teorin om entropi . Hans sensationella idéer fungerade snabbt som grunden för utvecklingen av två huvudområden: informationsteori , som använder begreppet sannolikhet och ergodisk teori för att studera de statistiska egenskaperna hos data- och kommunikationssystem, och kodningsteori , som huvudsakligen använder algebraiska och geometriska verktyg. att utveckla effektiva koder.
Begreppet entropi som ett mått på slumpmässighet introducerades av Shannon i hans artikel " A Mathematical Theory of Communication " , publicerad i två delar i Bell System Technical Journal 1948.
![]() | ||||
---|---|---|---|---|
|