Avstånd Kullback-Leibler

Den aktuella versionen av sidan har ännu inte granskats av erfarna bidragsgivare och kan skilja sig väsentligt från versionen som granskades den 3 december 2021; kontroller kräver 2 redigeringar .

Avstånd (divergens, divergens) Kullback-Leibler ( engelska  Kullback-Leibler divergens ), RKL , informationsdiskrepans , särskiljande information , informationsvinst , relativ entropi ( engelska  relativ entropi ) [1]  - icke-negativ funktionell , som är ett asymmetriskt mått på avstånd från varandra vän av två sannolikhetsfördelningar [2] definierade på det gemensamma utrymmet för elementära händelser . Används ofta i informationsteori och matematisk statistik .

Definition och tolkningar

Kullback-Leibler-divergensen för en fördelning med avseende på (eller, relativt sett, "avståndet från till ") betecknas med . Det första argumentet för den funktionella ( distribution ) tolkas vanligtvis som en sann eller a priori postulerad distribution , det andra ( distribution ) som en antagen (verifierbar) sådan. Fördelningen fungerar ofta som en approximation av en fördelning . Värdet av funktionen kan förstås som mängden ignorerad distributionsinformation om den användes för att approximera . Detta mått på avstånd i informationsteori tolkas också som mängden informationsförlust när man ersätter den sanna fördelningen med distributionen .

I det allmänna fallet, om det  finns något mått för vilket det finns funktioner som är absolut kontinuerliga med avseende på och , då definieras Kullback-Leibler-divergensen av fördelningen med avseende på som

.

Basen för logaritmen i denna formel spelar ingen signifikant roll. Dess val tillåter fixering av en specifik typ av funktionell från en familj av likvärdiga funktionaler och är liktydigt med att välja måttenheten för Kullback-Leibler-avvikelsen (liknande situationen med att beräkna entropi ), så det är möjligt att använda en logaritm med valfri bas större än en. Med andra ord, det funktionella definieras upp till en positiv konstant faktor. De vanligaste är den naturliga logaritmen (av bekvämlighetsskäl), samt den binära logaritmen  - för att mäta avvikelsen i bitar (används vanligtvis inom informationsteori ). Kullback-Leibler-divergensen är en dimensionslös storhet , oavsett dimensionen på de ursprungliga slumpvariablerna.

Även om Kullback-Leibler-avståndet (RKL) ofta betraktas som ett sätt att mäta avståndet mellan sannolikhetsfördelningar, är denna funktion inte ett mått i distributionsutrymmet, eftersom det inte uppfyller triangelolikheten och inte uppfyller axiomet för symmetri: . Emellertid ger dess oändliga form, särskilt dess hessiska , en metrisk tensor , som är känd som Fisher informationsmåttet .

Kullback-Leibler-avståndet är ett specialfall av en mer allmän klass av avvikelser som kallas f - avvikelser , såväl som ett specialfall av klassen Bregman av avvikelser . RKL är den enda avvikelsen av sannolikheter som tillhör båda klasserna.

RKL introducerades ursprungligen av Solomon Kullback och Richard Leibler 1951 som en riktningsdivergens mellan två distributioner. Detta diskuteras i Kullbacks text Information Theory and Statistics. [ett]

Avståndet Kullback-Leibler tolkas ibland också som den informationsvinst som uppnås när den används istället för . Ibland används förvirrande namn för RKL relativ entropi relativ (betecknad ) eller korsentropi .

Det finns olika konventioner om hur man läser notationen . Benämns ofta helt enkelt som diskrepansen eller avståndet mellan och , men detta förmedlar inte den grundläggande asymmetrin i förhållandet. Ibland säger de "avvikelse från (relativ till) " eller, relativt sett, "avstånd från till " (vanligtvis i samband med relativ entropi eller informationsvinst). I det här fallet tolkas fördelningen som sann.

Särskilda definitioner och definitioner i termer av Radon–Nikodim-derivatet

För diskreta sannolikhetsfördelningar och med ett antal elementära händelser definieras Kullback-Leibler-divergensen för en fördelning med avseende på fördelningen (eller "avstånd från till ") [3] som:

.

Det är med andra ord medelvärdet av den logaritmiska skillnaden mellan sannolikheterna och , där medelvärdet är hämtat från fördelningen . RKL definieras endast om , för alla ( absolut kontinuitet ). Närhelst bidraget från den -e termen tolkas som noll eftersom .

För -dimensionella absolut kontinuerliga fördelningar och Kullback-Leibler-avståndet ges av uttrycket [4]

,

var och  är fördelningen densitet funktioner och , respektive, definieras på intervallet .

Mer generellt, om och  är sannolikhetsmått på uppsättningen , och är absolut kontinuerliga med avseende på , så definieras RKL från till som:

,

var  är Radon-Nikodym-derivatet med avseende på , och förutsatt att uttrycket till höger finns. På motsvarande sätt kan detta skrivas som

.

Det bör noteras att användningen av Radon-Nikodim-derivatet fungerar som ett formellt sätt att skriva dessa uttryck, men avslöjar inte deras meningsfulla betydelse.

Kullback-Leibler divergensfunktion är dimensionslös, men dess värden kan ha olika enheter. Så, om logaritmerna i dessa formler tas i bas 2, så mäts divergensen (det är också information ur informationsteorinsynpunkt) i bitar ; om baserat på e (med en naturlig bas), så mäts divergensen (informationen) i nats . De flesta formler som innehåller RKL behåller sin betydelse oavsett logaritmens bas.

Karakterisering

Arthur Hobson bevisade att Kullback-Leibler-avståndet är det enda måttet på skillnaden mellan sannolikhetsfördelningar som tillfredsställer några önskvärda egenskaper som är kanoniska förlängningar till de som förekommer i vanliga karakteriseringar av entropi . [5] Därför är ömsesidig information  det enda måttet på ömsesidigt beroende som är föremål för vissa relaterade villkor, eftersom det kan definieras i termer av RCL .

Det finns också en Bayesiansk karaktärisering av avståndet Kullback-Leibler. [6]

Motivation

Inom informationsteorin säger Kraft-McMillan-satsen att varje direkt avkodningsbart kodningsschema för att koda ett meddelande för att identifiera ett enda värde kan ses som representerande en implicit sannolikhetsfördelning över , där  är kodlängden för , i bitar. Därför kan RCL tolkas som den förväntade extra meddelandelängden från nollmärket som ska sändas om en kod som är optimal för en given (felaktig) distribution av Q används, jämfört med att använda en kod baserad på den sanna fördelningen av P .

, där  är korsentropin för P och Q,  är entropin för P.

Observera också att det finns ett samband mellan RKL och "hastighetsfunktionen" i teorin om stora avvikelser . [7] [8]

Egenskaper

,

var och . Trots antagandet att omvandlingen var kontinuerlig är detta inte nödvändigt i detta fall. Detta visar också att RKL anger ett värde som överensstämmer med dimensionen , eftersom om x är en dimensionsvariabel, så har P(x) och Q(x) också en dimension, eftersom det är en dimensionslös storhet. Uttrycket under logaritmen förblir dock dimensionslöst, som det borde. Därför kan Kullback-Leibler-avståndet på sätt och vis betraktas som en mer fundamental storhet än vissa andra egenskaper inom informationsteorin [9] (som självinformation eller Shannon-entropi ), som kan bli odefinierad eller negativ för icke- diskreta sannolikheter.

Kullback-Leibler-avståndet för den multivariata normalfördelningen

Låt oss säga att vi har två multivariata normalfördelningar , med medelvärde och med (reversibla) kovariansmatriser . Om två distributioner har samma dimension k, är RCL mellan fördelningarna som följer [10] :

Logaritmen i den sista termen måste tas till basen e, eftersom alla utom den sista termen är naturliga logaritmer av uttryck som antingen är någon av faktorerna i densitetsfunktionen eller på annat sätt förekommer naturligt. Därför ger ekvationen ett resultat mätt i nats . Om vi ​​delar detta uttryck helt med log e 2 får vi fördelningen i bitar.

Relation till mätvärden

Man skulle kunna kalla RCL för ett " mått " i utrymmet för sannolikhetsfördelningar, men detta skulle vara felaktigt, eftersom det inte är symmetriskt och inte uppfyller triangelolikheten . Ändå, eftersom det är ett preliminärt mått , genererar det en topologi inom utrymmet för sannolikhetsfördelningar . Mer specifikt, om är en sekvens av distributioner sådan att , då säger vi att . Av Pinskers ojämlikhet följer att — , där det senare behövs för konvergens i variation .

Enligt Alfred Renyi (1970, 1961). [11] [12]

Fishers informationsmått

Emellertid är avståndet Kullback-Leibler direkt relaterat till måttet, nämligen Fisher informationsmåttet . Anta att vi har sannolikhetsfördelningar P och Q, som båda parametriseras av samma (eventuellt multivariata) parameter . Betrakta nu två nära värden för och , så att parametern endast skiljer sig med ett litet antal från parametern . När vi expanderar i en Taylor-serie upp till första ordningen har vi (med Einstein-konventionen )

,

där  är en liten förändring i den j:te riktningen, och är motsvarande förändringshastighet i sannolikhetsfördelningen. Eftersom RCL har ett absolut minimum lika med 0 vid P=Q, det vill säga, RCL har den andra ordningen av litenhet vad gäller parametrarna . Mer formellt, som för vilket minimum som helst, försvinner den första derivatan av divergensen

och Taylor-expansionen börjar från den andra ordningen av litenhet

,

där hessian måste vara icke-negativ. Om det tillåts variera (och utelämna underindexet 0), definierar hessian ett (eventuellt degenererat) Riemann-mått i parameterutrymmet , kallat Fisher-informationsmåttet.

Relation till andra dimensioner av informationsteori

Många andra informationsteoretiska kvantiteter kan tolkas som att man tillämpar Kullback-Leibler-avståndet på särskilda fall.

Egenvärdet är RCL för sannolikhetsfördelningen från Kronecker-symbolen , som representerar säkerheten att  - det vill säga antalet extra bitar som måste sändas för att bestämma , om bara sannolikhetsfördelningen är tillgänglig för mottagaren, inte det faktum att .

Ömsesidig information -

är RCL av produkten av två marginella sannolikhetsfördelningar från den gemensamma sannolikhetsfördelningen  - det vill säga det förväntade antalet extra bitar som måste skickas för att bestämma och om kodas med endast deras marginella distribution istället för den gemensamma fördelningen. På motsvarande sätt, om den gemensamma sannolikheten är känd, är det det förväntade antalet extra bitar som ska skickas i genomsnitt för att avgöra om värdet inte redan är känt för mottagaren.

Entropy of Shannon -

är antalet bitar som måste sändas för att identifiera från lika sannolika utfall, detta är mindre än den enhetliga fördelningen RCL från den sanna fördelningen  - det vill säga mindre än det förväntade antalet lagrade bitar som måste skickas om värdet är kodat enligt till den enhetliga fördelningen och inte den sanna fördelningen .

Villkorlig entropi -

är antalet bitar som måste skickas för att identifiera från lika sannolika utfall, detta är mindre än RCL för produkten av distributionerna från den sanna gemensamma distributionen  - det vill säga mindre än det förväntade antalet lagrade bitar som måste skickas om värdet är kodat enligt den enhetliga fördelningen och inte med villkorad datadistribution och .

Korsentropin mellan två sannolikhetsfördelningar mäter det genomsnittliga antalet bitar som behövs för att identifiera en händelse från en uppsättning möjliga händelser om ett kodningsschema baserat på en given sannolikhetsfördelning används snarare än den "sanna" fördelningen . Korsentropin för två distributioner och över samma sannolikhetsutrymme definieras enligt följande:

Kullback-Leibler avstånd och Bayesiansk modifiering

I Bayesiansk statistik kan Kullback-Leibler-avståndet användas som ett mått på informationsvinsten när man går från en före till en posteriori sannolikhetsfördelning. Om något nytt faktum upptäcks kan det användas för att modifiera (a priori) sannolikhetsfördelningen till en ny (posterior) sannolikhetsfördelning med hjälp av Bayes sats :

Denna fördelning har en ny entropi

som kan vara mindre eller mer än den ursprungliga entropin . Men i termer av den nya sannolikhetsfördelningen kan det uppskattas att användning av den ursprungliga koden baserad på istället för den nya koden baserad på skulle lägga till det förväntade antalet bitar till meddelandets längd. Detta är alltså mängden användbar information, eller informationsvinst, om , som erhölls genom att hitta att .

Om ytterligare en databit senare kommer, , kan sannolikhetsfördelningen för x uppdateras ytterligare för att ge en ny bästa gissning , . Om vi ​​omprövar informationsvinsten att använda , och inte , visar det sig att den kan vara mer eller mindre än man tidigare trott: , kan vara eller , än , och därför uppfyller den totala informationsvinsten inte triangelolikheten:

, kan vara större än, mindre än eller lika med

Allt som kan sägas är att i genomsnitt, om man tar genomsnittet med , kommer båda sidor att ge genomsnittet.

Bayes experimentella modell

Ett vanligt mål i en experimentell Bayesiansk modell  är att maximera den förväntade RCL mellan föregående och posteriora distributioner. [13] När baksidan approximeras till en Gaussisk fördelning kallas modellen som maximerar den förväntade RCL för Bayesian d-optimal .

Särskiljande information

Kullback-Leibler-avståndet kan också tolkas som den förväntade särskiljande informationen för över : medelinformation per prov för skillnaden till förmån för hypotesen , mot hypotesen när hypotesen är sann [14] . Ett annat namn för denna kvantitet, givet av Irving John Good , är den förväntade bevismassan för över förväntad från varje prov.

Den förväntade bevisvikten för över är inte densamma som den förväntade informationsvinsten, till exempel för sannolikhetsfördelningen p(H) för hypotesen, .

Endera av de två kvantiteterna kan användas som en hjälpfunktion i den Bayesianska experimentformen för att välja den optimala nästa fråga för undersökning, men i allmänhet kommer de snarare att leda till olika experimentella strategier.

På entropiskalan för informationsförstärkning är det mycket liten skillnad mellan nästan säkerhet och full säkerhet - nästan säkerhetkodning kommer sannolikt inte att kräva fler bitar än fullsäkerhetskodning. Å andra sidan antyds vikten av bevis i logitskalan , och skillnaden mellan de två är enorm, nästan oändlig. Detta kan återspegla skillnaden mellan att vara nästan säker (på en probabilistisk nivå), säg att Riemannhypotesen är sann, och att vara helt säker på att den är sann eftersom det finns ett matematiskt bevis. Två olika förlustfunktionsskalor för osäkerhet är båda användbara, beroende på hur väl var och en speglar de särskilda omständigheterna för det problem som övervägs i problemet.

Principen om minsta möjliga särskiljande information

Idén om RKL som diskriminerande information ledde till att Kullback föreslog principen om minsta  diskrimineringsinformation (MDI ) : givet nya fakta, bör en ny distribution väljas från de som är svåra att skilja från den ursprungliga distributionen ; eftersom ny data genererar så lite informationsvinst som möjligt.

Till exempel, om vi har en tidigare fördelning över och , och sedan studera den sanna fördelningen av och . RCL mellan den nya gemensamma distributionen för och , , och den gamla tidigare distributionen skulle vara:

det vill säga summan av RKL för den tidigare fördelningen för från den uppdaterade fördelningen plus förväntat värde (den använda sannolikhetsfördelningen ) av RKL för den tidigare villkorliga fördelningen från den nya fördelningen . (Observera att det ofta senare förväntade värdet kallas villkorlig RKL (eller villkorlig relativ entropi) och betecknas [15] . Detta minimerar om över det totala innehållet . Och vi märker att detta resultat förenar Bayes teorem om den nya fördelningen faktiskt är en funktion som med säkerhet representerar , som har ett särskilt värde.

Minimal särskiljande information kan ses som en förlängning av Laplaces likgiltighetsprincip (även känd som principen om otillräckligt skäl) och Jaynes princip om maximal entropi . I synnerhet är det en naturlig förlängning av principen om maximal entropi från en diskret till en kontinuerlig fördelning, för vilken Shannon-entropin inte blir särskilt bekväm (se differentiell entropi ), men RCL fortsätter att vara lika relevant.

I ingenjörslitteraturen hänvisas ibland till MDI som minimi -korsentropiprincipen . Att minimera RCL från med avseende på är likvärdigt med att minimera korsentropin och , vilket är lämpligt om man försöker välja ett exakt ungefärligt värde upp till .

Användningsexempel

Låt, baserat på ett urval från fördelningen av någon slumpvariabel, det krävs för att återställa densiteten av dess fördelning, givet i form av en parametrisk familj , där  är argumentet för funktionen,  är en okänd parameter. Parameteruppskattningen kan hittas som en lösning på problemet med att minimera Kullback-Leibler-avståndet mellan densiteten och den empiriska distributionstätheten som anses "sant",

,

var  är Dirac-funktionen :

.

Det är lätt att se att lösningen av detta problem leder till en maximal sannolikhetsuppskattning för parametern . Om den faktiska distributionstätheten för den slumpmässiga variabeln inte tillhör familjen kallas parameteruppskattningen som hittas quasi-likelihood och ger den bästa approximationen av den faktiska fördelningen som representeras av urvalet bland distributioner med tätheter i termer av Kullback-Leibler-avståndet .

Anteckningar

  1. ↑ 1 2 Kullback S. Informationsteori och statistik. — John Wiley & Sons, 1959.
  2. Kullback S., Leibler R. A. Om information och tillräcklighet // The Annals of Mathematical Statistics. 1951.V.22. Nr 1. S. 79-86.
  3. MacKay, David JC Informationsteori, slutlednings- och inlärningsalgoritmer. - Första upplagan.. - Cambridge University Press, 2003. - C. p. 34.
  4. Biskop C. Mönsterigenkänning och maskininlärning. - 2006. - S. p. 55.
  5. Hobson, Arthur. Begrepp inom statistisk mekanik. Gordon och Breach. - New York, 1971. - ISBN 0677032404 .
  6. Baez, John; Fritz, Tobias. Teori och tillämpning av kategorier 29.—C. "En Bayesiansk karakterisering av relativ entropi", sid. 421–456..
  7. I.N. Sanov. Om sannolikheten för stora avvikelser av stokastiska variabler. - 1957. - S. 11-44.
  8. Novak SY Extreme Value Methods with Applications to Finance kap. 14.5. — Chapman & Hall. - 2011. - ISBN 978-1-4398-3574-6 .
  9. Relativ entropi . videolectures.net. Hämtad 14 juni 2016. Arkiverad från originalet 25 december 2018.
  10. Duchi J. "Derivationer för linjär algebra och optimering". - S. 13 .
  11. Rényi A. Sannolikhetsteori. - 1970. - ISBN 0-486-45867-9 ..
  12. Rényi, A. "Om mått på entropi och information". - 4th Berkeley Symposium on Mathematics, Statistics and Probability 1960, 1961. - s. 547–561.
  13. Chaloner, K.; Verdinelli, I. "Bayesiansk experimentell design: en recension". — Statistical Science 10, 1995. — 273–304 s.
  14. Press, W.H.; Teukolsky, SA; Vetterling, WT; Flannery, B. P. (2007). "Avsnitt 14.7.2. Avstånd Kullback–Leibler". Numeriska recept: The Art of Scientific Computing (3:e upplagan). Cambridge University Press. ISBN 978-0-521-88068-8 . .
  15. Thomas M. Cover, Joy A. Thomas. Element av informationsteori . — John Wiley & Sons. - 1991. - S. s.22.