Chernovs uppskattning ger exponentiellt minskande uppskattningar av sannolikheten för stora avvikelser av summor av oberoende slumpvariabler . Dessa uppskattningar är mer exakta än uppskattningar som erhålls med hjälp av första eller andra ögonblick, såsom Markovs ojämlikhet eller Chebyshevs ojämlikhet , som bara ger en kraftlag av minskande. Samtidigt kräver Chernovs uppskattning att de stokastiska variablerna är oberoende i aggregatet, ett villkor som varken Markovs olikhet eller Chebyshevs olikhet kräver, även om Chebyshevs olikhet kräver parvis oberoende av stokastiska variabler.
Chernovs uppskattning är relaterad till Bernsteins ojämlikheter och Höfdings ojämlikhet , som föregår den historiskt.
Huvudfallet med Chernov-uppskattningen för en slumpvariabel uppnås genom att tillämpa Markovs olikhet på e tX [1] . För alla
När X är summan av n slumpvariabler X 1 , ... , X n , för någon
Vi får i synnerhet optimera med avseende på t och anta att X i är oberoende
(ett)Liknande
och sålunda,
Specifika värden av Chernovs uppskattningar erhålls genom beräkning för specifika kvantiteter .
Låt X 1 , ..., X n vara oberoende Bernoulli-slumpvariabler vars summa är X , och var och en är lika med 1 med sannolikhet . För en Bernoulli-variabel gäller följande:
Följaktligen,
För alla och , vi erhåller
,och det allmänna fallet med Chernoff-uppskattningen ger [2] :64
Sannolikheten för samtidig förekomst av fler än n /2 händelser { X k = 1 } är exakt lika med:
Den lägre uppskattningen av denna sannolikhet kan beräknas med Chernoff-ojämlikheten:
Med beteckningen μ = np får vi faktiskt den multiplikativa formen av Chernoff-uppskattningen (se nedan eller följd 13.3 i Sinclairs klassanteckningar) [3] :
Detta resultat tillåter olika generaliseringar, som noteras nedan. Flera former av Chernoff-uppskattningar kan noteras: den ursprungliga additiva formen (ger en uppskattning för det absoluta felet ) eller den mer praktiska multiplikationsformen (begränsar felet med avseende på medelvärdet).
Följande teorem bevisades av Wassily Hoefding [4] .
Chernov-Hoefding-satsen . Låt X 1 , ..., Xn vara oberoende identiskt fördelade slumpvariabler med värdena {0, 1}. Låt p = E[ X ] och ε > 0 . Sedan var Detta är Kullback-Leibler-divergensen mellan slumpvariabler som har en Bernoulli-fördelning med parametrarna x respektive y . Om p ≥ett2, dåEn enklare skattning erhålls genom att försvaga denna sats med olikheten D ( p + ε || p ) ≥ 2 ε 2 , som följer av konvexiteten för D ( p + ε || p ) och det faktum att
Detta resultat är ett specialfall av Hoefdings ojämlikhet . I vissa fall används uppskattningar
starkare för p <ettåtta.
På liknande sätt kan man visa det för vilken som helst
I praktiken visar sig ovanstående formel ofta vara besvärlig [2] , så svagare men bekväma uppskattningar används
som erhålls med hjälp av en olikhet från listan över logaritmiska olikheter [5] . Eller en ännu svagare ojämlikhet
Chernovs uppskattningar har tillämpningar inom setbalansering och paketrouting i glesa nätverk .
Problemet med balansering av mängder uppstår vid utformningen av ett statistiskt experiment . Vanligtvis, när vi utformar ett statistiskt experiment med deltagaregenskaper som ges i det experimentet, måste vi dela upp deltagarna i två icke-överlappande grupper så att varje egenskap är så balanserad som möjligt mellan de två grupperna. Se även Probability and Computing: Randomized Algorithms and Probabilistic Analysis Arkiverad 16 april 2021 på Wayback Machine .
Chernoff-uppskattningar används också för att uppnå hårda gränser i routingproblem med hjälp av permutationer. Detta minskar routingstockning i glesa nätverk. Se mer i Probability and Computing: Randomized Algorithms and Probabilistic Analysis Arkiverad 16 april 2021 på Wayback Machine .
Dessutom används Chernoff-uppskattningar i teorin om beräkningsinlärning för att bevisa att inlärningsalgoritmen är ungefär korrekt i sannolikhet . Det vill säga, med hög sannolikhet har denna algoritm ett litet fel på en tillräckligt stor uppsättning träningsdata [6] .
Chernoff-poäng kan effektivt användas för att utvärdera " robusthetsnivån " för en applikation/algoritm genom att undersöka dess störningsutrymme med hjälp av randomisering. [7]
Rudolf Ahlswede och Andreas Winter använde Chernoff-skattningar för slumpvariabler med matrisvärden. [8] Nästa version av ojämlikheten finns i Tropps verk. [9]
Låt M 1 , ..., M t vara slumpvariabler med matrisvärden som och . Beteckna matrisnormoperatorn . Om olikheten nästan säkert gäller för alla , då för varje ε > 0
För att dra slutsatsen att avvikelsen från 0 begränsas av ε med hög sannolikhet måste vi välja (antal sampel) proportionellt mot logaritmen för . I det allmänna fallet är beroendet av inte uppenbart: ta till exempel en diagonal slumpmässig matris av dimensionstecken . Summan av oberoende provnormoperator är exakt den maximala avvikelsen bland oberoende slumpmässiga längdvandringar . För att nå en fast gräns för maximal avvikelse med konstant sannolikhet, måste öka logaritmiskt med . [tio]
Följande sats härleds under antagandet att den har en låg rang för att undvika dimensionsberoende.
Låt 0 < ε < 1 och vara en slumpmässig symmetrisk reell matris med och nästan säker. Antag att varje bärarelement har rang som mest . Låt oss sätta
Om nästan säkert, alltså
där M 1 , ..., M t är oberoende identiskt distribuerade kopior av .
Ankit Garg, Yin Tat Lee, Zhao Song och Nikhil Srivastava [11] erhöll Chernoff-typ uppskattningar för summor av matrisvärderade slumpvariabler samplade med hjälp av en expander random walk .
Rasmus King och Zhao Song [12] erhöll Chernov-typ uppskattningar för summor av Laplacian matriser av slumpmässiga träd.
Följande version av Chernoff-uppskattningen kan användas för att uppskatta sannolikheten för att majoriteten av befolkningen kommer att bli en minoritet i urvalet och vice versa. [13]
Anta att det finns en allmän befolkning och en subpopulation . Låt oss beteckna den relativa storleken på delpopulationen ( ) med .
Låt oss säga att vi väljer ett heltal surt och ett slumpmässigt urval av storlek . Låt oss beteckna den relativa storleken på delpopulationen ( ) med .
Sedan för varje andel :
I synnerhet, om ─ är majoriteten i (dvs. ), så kan vi från ovan uppskatta sannolikheten att den kommer att förbli majoriteten när vi tar [14] :
Denna uppskattning är naturligtvis inte korrekt. Till exempel, om , då får vi en trivial uppskattning .
Låt q = p + ε . Om vi tar a = nq i formel (1) får vi:
När vi nu vet att Pr( X i = 1) = p , Pr( X i = 0) = 1 − p , har vi
Så vi kan enkelt beräkna minimum med hjälp av differentieringstekniken:
Att likställa det resulterande uttrycket till noll och lösa ekvationen med avseende på , får vi
så
Följaktligen,
Eftersom q = p + ε > p ser vi att t > 0 , så vår uppskattning är uppfylld av t . När vi har t , kan vi gå tillbaka till föregående ekvationer och hitta
Vi har nu önskat resultat eftersom
För att slutföra beviset i det symmetriska fallet definierar vi helt enkelt en slumpvariabel Y i = 1 − X i , tillämpar exakt samma bevis på den och lägger till resultatet till vår uppskattning.
Låt Pr( Xi = 1 ) = pi . Enligt formel (1) ,
Den tredje raden följer av att den tar värdet e t med sannolikheten pi och värdet 1 med sannolikheten 1 − pi . Detta är identiskt med beräkningarna ovan i beviset för tillsatsformen.
Om vi skriver om som och kommer ihåg att (om x > 0 är ojämlikheten strikt), sätter vi . Samma resultat kan erhållas genom att direkt ersätta a i Chernoff-estimatorn med (1 + δ ) μ . [femton]
På det här sättet,
Om vi bara sätter t = ln(1 + δ ) , så att t > 0 för δ > 0 , så kan vi plugga in det i det sista uttrycket och hitta
,Q.E.D.