Bayes sats

Den aktuella versionen av sidan har ännu inte granskats av erfarna bidragsgivare och kan skilja sig väsentligt från versionen som granskades den 6 februari 2022; kontroller kräver 3 redigeringar .

Bayes sats (eller Bayes formel ) är en av huvudsatserna i elementär sannolikhetsteorin , som låter dig bestämma sannolikheten för en händelse, förutsatt att en annan händelse som är statistiskt beroende av den har inträffat. Med andra ord, enligt Bayes formel är det möjligt att mer exakt räkna om sannolikheten, med hänsyn till både tidigare känd information och data från nya observationer. Bayes formel kan härledas från sannolikhetsteorins grundläggande axiom, i synnerhet från den betingade sannolikheten. En egenskap hos Bayes-satsen är att dess praktiska tillämpning kräver ett stort antal beräkningar, beräkningar, så Bayesiska uppskattningar började användas aktivt först efter revolutionen inom dator- och nätverksteknik.

När Bayes sats uppstod var sannolikheterna som användes i satsen föremål för ett antal probabilistiska tolkningar. En av dessa tolkningar sa att härledningen av formeln är direkt relaterad till tillämpningen av en speciell metod för statistisk analys. Om vi ​​använder den Bayesianska tolkningen av sannolikhet visar satsen hur den personliga nivån av förtroende kan förändras dramatiskt på grund av antalet händelser som har inträffat. Detta är slutsatsen från Bayes, som blev grundläggande för Bayesiansk statistik. Satsen används dock inte bara i Bayesiansk analys, utan används också aktivt för ett stort antal andra beräkningar.

Psykologiska experiment [1] har visat att människor ofta felaktigt uppskattar den verkliga (matematiskt korrekta) sannolikheten för en händelse baserat på några erfarenheter ( a posteriori sannolikhet ), eftersom de ignorerar själva sannolikheten för ett antagande ( a priori sannolikhet ). Därför kan det korrekta resultatet enligt Bayes formel vara mycket annorlunda än det intuitivt förväntade.

Bayes sats är uppkallad efter dess författare, Thomas Bayes (1702–1761), en engelsk matematiker och präst som först föreslog användningen av satsen för att korrigera föreställningar baserat på uppdaterade data. Hans verk " En essä för att lösa ett problem i läran om chanser " publicerades första gången 1763 [2] , 2 år efter författarens död. Innan Bayes postuma arbete accepterades och lästes på Royal Society, redigerades och uppdaterades det omfattande av Richard Price . Dessa idéer offentliggjordes dock inte förrän de återupptäcktes och utvecklades av Pierre-Simon Laplace , som först publicerade den moderna formuleringen av teoremet i sin bok från 1812 The Analytic Theory of Probability.

Sir Harold Jeffreys skrev att Bayes sats är "för sannolikhetsteorin vad Pythagoras sats är för geometri " [3] .

Formulering

Bayes formel :

,

var

— a priori sannolikhet för hypotes A (se nedan för betydelsen av sådan terminologi). är sannolikheten för hypotes A vid inträffandet av händelse B (a posteriori sannolikhet); är sannolikheten för att händelse B inträffar om hypotesen A är sann ; är den totala sannolikheten för att händelsen B ska inträffa .

Bevis

Bayes formel följer av definitionen av betingad sannolikhet . Sannolikheten för en gemensam händelse uttrycks på två sätt i termer av betingade sannolikheter

Följaktligen

Beräknar P(B)

I problem och statistiska tillämpningar beräknas det vanligtvis med formeln för den totala sannolikheten för en händelse beroende på flera inkonsekventa hypoteser med en total sannolikhet på 1.

,

där sannolikheterna under summatecknet är kända eller kan uppskattas experimentellt.

I det här fallet skrivs Bayes formel enligt följande:

"Fysisk betydelse" och terminologi

Bayes formel låter dig "ordna om orsak och verkan": med tanke på det kända faktumet av en händelse, beräkna sannolikheten att den orsakades av en given orsak. Samtidigt är det nödvändigt att förstå att för tillämpningen av teoremet är ett orsakssamband mellan och inte obligatoriskt.

Händelser som återspeglar verkan av "orsaker" i detta fall kallas hypoteser , eftersom de är de påstådda händelserna som orsakade det givna. Den ovillkorliga sannolikheten för hypotesens giltighet kallas a priori (hur sannolik orsaken är i allmänhet ), och den villkorliga, med hänsyn till händelsens faktum, kallas a posteriori (hur sannolikt orsaken visade sig vara , med hänsyn till data om händelsen ).

Exempel

Exempel 1

Låt händelsen  - bilen startar inte, och hypotesen  - det finns inget bränsle i tanken. Uppenbarligen är sannolikheten att bilen inte startar om det inte finns bränsle i tanken lika med ett. Som en konsekvens är den bakre sannolikheten att det inte finns något bränsle i tanken om bilen inte startar, det vill säga lika med , det vill säga förhållandet mellan den tidigare sannolikheten att det inte finns något bränsle i tanken och sannolikheten att bilen startar inte. Till exempel, om den tidigare sannolikheten att det inte finns något bränsle i tanken är 0,01, och sannolikheten att bilen inte startar är 0,02, och en slumpmässigt vald bil inte startade, då är sannolikheten att det inte finns något bränsle i tanken. är 0,5.

Exempel 2

Låt sannolikheten för äktenskap för den första arbetaren vara , för den andra arbetaren - och för den tredje - . Den första gjorde delarna, den andra gjorde delarna och den tredje gjorde delarna. Förmannen tar en slumpmässig del, och den visar sig vara defekt. Frågan är, vad är sannolikheten att denna del gjordes av den tredje arbetaren?

En händelse  är en defekt del, en händelse  är en del producerad av en arbetare . Sedan , var , en .

Enligt totalsannolikhetsformeln

Enligt Bayes formel får vi:

Exempel 3

Entomologen föreslår att skalbaggen kan vara en sällsynt skalbaggeunderart , eftersom den har ett mönster på sin kropp. Hos de sällsynta underarterna är 98 % av skalbaggarna mönstrade, eller P(mönster | sällsynt) = 0,98. Bland vanliga skalbaggar är endast 5 % mönstrade: P(mönster | regelbundet) = 0,05. Det finns bara 0,1 % av de sällsynta skalbaggarna bland hela populationen: P(sällsynt) = 0,001. Vad är sannolikheten att en mönstrad skalbagge är en sällsynt underart, det vill säga vad är P(sällsynt | mönster) ?

Från den utökade Bayes-satsen får vi (vilken som helst skalbagge kan vara antingen sällsynt eller vanlig):

Exempel 4 är en paradox i Bayes teorem

Låt det finnas en sjukdom med en spridningsfrekvens bland befolkningen på 0,001 och en diagnostisk undersökningsmetod som, med en sannolikhet på 0,9, identifierar en patient, men som samtidigt har en sannolikhet på 0,01 för ett falskt positivt resultat - ett felaktigt upptäckt av en sjukdom hos en frisk person ( mer... ). Hitta sannolikheten att en person är frisk om han erkändes som sjuk vid undersökningen.

Låt oss beteckna händelsen som undersökningen visade att personen är sjuk som "sjuk" med citattecken, sjuk - händelsen att personen är riktigt sjuk, frisk - händelsen att personen är riktigt frisk. Sedan skrivs de givna villkoren om enligt följande:

, medan , betyder:

Sannolikheten att en person är frisk, om han erkändes som sjuk, är lika med den villkorade sannolikheten:

För att hitta det, beräknar vi först den totala sannolikheten att bli erkänd som en patient:

Sannolikheten att en person är frisk om resultatet är "sjukt":

Således är 91,7% av personer vars undersökning visade resultatet "sjuka" faktiskt friska människor. Anledningen till detta är att, beroende på problemets tillstånd, sannolikheten för ett falskt positivt resultat, även om det är liten, är en storleksordning större än andelen patienter i den undersökta gruppen människor.

Om de felaktiga resultaten av undersökningen kan anses vara slumpmässiga, kommer en andra undersökning av samma person att ge ett oberoende resultat från den första. I det här fallet, för att minska andelen falskt positiva resultat, är det vettigt att ompröva personer som fick resultatet "sjuka". Sannolikheten att en person är frisk efter att ha fått ett upprepat resultat av "sjuk" kan också beräknas med Bayes formel:

Alternativ för att tolka sannolikheter i Bayes sats

Matematiskt visar Bayes sats sambandet mellan sannolikheten för händelse A och sannolikheten för händelse B, P ( A ) och P ( B ), den villkorade sannolikheten för att händelse A inträffar med existerande B och förekomsten av händelse B med existerande A, P ( A | B ) och P ( B | A).

I allmän form ser Bayes formel ut så här:

Innebörden av uttrycket beror på hur sannolikheterna i den givna formeln tolkas.

Bayes tolkning

I Bayesiansk tolkning mäter sannolikhet nivån av tillit. Bayes sats knyter samman trovärdigheten hos ett antagande före och efter att ha tagit hänsyn till de uppenbara bevisen. Till exempel, någon föreslog att när ett mynt kastas, kommer det att landa 2 gånger oftare, svansar uppåt och nedåt. Inledningsvis, graden av förtroende för att en sådan händelse kommer att hända, kommer myntet att falla exakt så här - 50%. Nivån på förtroende kan öka till 70 % om antagandet stöds av bevis. [ klara upp ]

För antagande (hypotes) A ​​och bevis B

Frekvenstolkning

I frekvenstolkningen beräknar Bayes teorem proportionerna av vissa utfall av en händelse. Antag att ett experiment har körts många gånger och i vissa fall har resulterat i resultat A och/eller B. Sedan:

Rollen av Bayes sats kan bäst förstås från träddiagrammen som presenteras till höger. Diagrammen visar den olika ordningen för fördelning av händelser genom närvaron eller frånvaron av resultat A och B. Bayes sats fungerar som en länk mellan dessa fördelningar.

Formulär

Händelser

Enkel form

För händelser A och B , förutsatt att P ( B ) ≠ 0,

Många tillägg till Bayes sats säger att händelse B är känd, och man behöver förstå hur kunskap om händelse B påverkar säkerheten att händelse A kommer att inträffa. I detta fall är nämnaren för det sista uttrycket - sannolikheten för förekomsten av händelsen B - är känd; vi vill ändra A. Bayes sats visar att de bakre sannolikheterna är proportionella mot täljaren:

(proportionalitet av A för ett givet B ). Kort sagt, den bakre delen är proportionell mot den föregående (se Lee, 2012, kapitel 1).

Om händelserna A 1 , A 2 , ... är ömsesidigt uteslutande och uttömmande, det vill säga bara en av händelserna är möjlig, två händelser kan inte inträffa samtidigt, vi kan bestämma proportionalitetskoefficienten, med fokus på det faktum att deras sannolikheter bör lägga till en. Till exempel, för en given händelse A  är själva händelsen A och dess motsats ¬ A ömsesidigt uteslutande och uttömmande. Betecknar proportionalitetsfaktorn som C har vi:

och .

Genom att kombinera dessa två formler får vi det:

Utökat formulär

Ofta definieras händelseutrymmet (såsom { Aj } ) i termer av P ( Aj ) och P ( B | Aj ) . Det är i det här fallet som det är användbart att bestämma P ( B ) genom att tillämpa den totala sannolikhetsformeln :

Särskilt

.

Kontinuerliga slumpvariabler

Betrakta rummet av elementära händelser Ω som bildas av två storheter X och Y . I grund och botten gäller Bayes sats händelserna A = { X = x } och B = { Y = y }. Uttrycken blir dock 0 vid punkter där variabeln har en ändlig sannolikhetstäthet . För att på ett användbart sätt kunna fortsätta använda Bayes sats kan man ange det i termer av lämpliga densiteter (se Formelhärledning ).

Enkel form

Om X är kontinuerlig och Y är diskret, då

Om X är diskret och Y är kontinuerlig,

Om både X och Y är kontinuerliga,

Utökat formulär

Det kontinuerliga händelseutrymmet definieras ofta som täljaren av villkoren A. Det kontinuerliga händelseutrymmet representeras ofta som täljaren. I framtiden är det användbart att bli av med nämnaren med formeln för den totala sannolikheten . För 'f Y ( y ) blir detta en integral:

Bayes regel

Bayes regel är en modifierad Bayes teorem:

var

Detta kallas Bayes regel eller likelihood ratio. Skillnaden i sannolikheten för att två händelser inträffar är helt enkelt förhållandet mellan sannolikheterna för de två händelserna. På det här sättet,

, ,

Härledning av formler

För evenemang

Bayes teorem kan härledas från definitionen av sannolikhet :

För slumpvariabler

För två kontinuerliga slumpvariabler X och Y kan Bayes sats på liknande sätt härledas från definitionen av en villkorlig fördelning :

Se även

Anteckningar

  1. Kahneman, et al, 2005 , s. 153-160.
  2. Bayes, Thomas och Price, Richard (1763). "En uppsats om att lösa ett problem i slumpläran. Av framlidne Rev. Herr. Bayes, meddelad av Mr. Price, i ett brev till John Canton, MA och FRS.” Philosophical Transactions of the Royal Society of London 53: 370-418. (inte tillgänglig länk) . Hämtad 21 april 2010. Arkiverad från originalet 10 april 2011. 
  3. Jeffreys, Harold (1973), Scientific Inference (3:e upplagan), Cambridge University Press, sid. 31, ISBN 978-0-521-18078-8

Litteratur

  • Gmurman V. E. Sannolikhetsteori och matematisk statistik, - M . : Högre utbildning. 2005
  • Bedömning under Osäkerhet: Heuristics and Biases / Daniel Kahneman, et al. — 21:a. - Cambridge University Press, 2005. - 555 sid. - ISBN 978-0-521-28414-1 .
  • Eliezer Yudkowsky . Visuell förklaring av Bayes sats

För vidare studier

  • McGrayne, Sharon Bertsch. Teorin som inte skulle dö: Hur Bayes styre knäckte gåtfullheten, jagade ryska ubåtar och kom fram triumferande från två århundraden av  kontroverser . - Yale University Press , 2011. - ISBN 978-0-300-18822-6 .
  • Andrew Gelman, John B. Carlin, Hal S. Stern och Donald B. Rubin (2003), Bayesian Data Analysis, andra upplagan, CRC Press.
  • Charles M. Grinstead och J. Laurie Snell (1997), "Introduction to Probability (2nd edition)", American Mathematical Society (gratis pdf tillgänglig [1] .
  • Pierre-Simon Laplace. (1774/1986), "Memoir om sannolikheten för händelsernas orsaker", Statistical Science 1(3):364-378.
  • Peter M. Lee (2012), Bayesian Statistics: An Introduction, Wiley.
  • Rosenthal, Jeffrey S. (2005): "Struck by Lightning: the Curious World of Probabilities." Harper Collings.
  • Stephen M. Stigler (1986), "Laplace's 1774 Memoir on Inverse Probability", Statistical Science 1(3):359-363.
  • Stone, JV (2013). Kapitel 1 i boken Bayes' Rule: A Tutorial Introduction , University of Sheffield, England.

Länkar