Standardavvikelse

Inom sannolikhetsteori och statistik är rotmedelkvadratavvikelsen (rotmedelkvadrat)  den vanligaste indikatorn på spridningen av värdena för en slumpvariabel i förhållande till dess matematiska förväntan (en analog till det aritmetiska medelvärdet med ett oändligt antal av resultat). Vanligtvis betyder det kvadratroten av variansen av en slumpvariabel, men ibland kan det betyda en eller annan variant av att uppskatta detta värde.

I litteraturen betecknas det vanligtvis med den grekiska bokstaven (sigma). I statistiken accepteras två beteckningar:  - för den allmänna befolkningen och sd (från engelska standardavvikelsen  - standardavvikelse ) - för urvalet .  

Termen

Det finns också synonymer för frasen standardavvikelse :

I sig betyder termen medelkvadrat medelvärde av potens 2 (se nedan ).

Grundläggande information

Standardavvikelsen definieras som kvadratroten av variansen av en slumpvariabel : .

Standardavvikelsen mäts i enheter av själva slumpvariabeln och används vid beräkning av standardfelet för det aritmetiska medelvärdet , vid konstruktion av konfidensintervall , vid statistisk testning av hypoteser , vid mätning av ett linjärt samband mellan slumpvariabler.

I praktiken, när istället för en exakt fördelning av en slumpvariabel , bara ett urval är tillgängligt, uppskattas standardavvikelsen, såväl som den matematiska förväntan ( sample varians ), och detta kan göras på olika sätt. Termerna "standardavvikelse" och "standardavvikelse" används vanligtvis på kvadratroten av variansen för en slumpvariabel (definierad i termer av dess sanna fördelning), men ibland på olika uppskattningar av denna kvantitet baserat på ett urval.

I synnerhet, om  är det i - :e elementet i urvalet,  är urvalsstorleken,  är det aritmetiska medelvärdet av urvalet ( provmedelvärde  är en uppskattning av den matematiska förväntan av ett värde):

sedan skrivs de två huvudsakliga sätten att uppskatta standardavvikelsen på följande sätt.

En uppskattning av standardavvikelsen baserad på en partisk uppskattning av variansen (ibland hänvisad till helt enkelt som urvalsvariansen [1] ):

Det är bokstavligen rotmedelvärdet för skillnaden mellan de uppmätta värdena och medelvärdet.

En uppskattning av standardavvikelsen baserad på en opartisk uppskattning av variansen (korrigerad provvarians [1] , i GOST R 8.736-2011 - "standardavvikelse"):

I sig är dock inte en opartisk uppskattning av kvadratroten av variansen, d.v.s. att ta kvadratroten "förstör" opartiskheten.

Båda uppskattningarna är konsekventa [1] .

Dessutom är standardavvikelsen den matematiska förväntan av kvadraten på skillnaden mellan det sanna värdet av en slumpvariabel och dess uppskattning för någon uppskattningsmetod [2] . Om uppskattningen är opartisk (provmedelvärdet är bara en opartisk uppskattning för en slumpvariabel), då är detta värde lika med variansen för denna uppskattning.

Standardavvikelse för medelvärdet

Urvalsmedelvärdet är också en slumpvariabel med en uppskattad standardavvikelse [2]

Three Sigma Rule

Regeln om tre sigma ( ) säger: sannolikheten att en slumpvariabel avviker från sitt medelvärde med mindre än , - .

Nästan alla värden för en normalfördelad slumpvariabel ligger i intervallet , där  är den matematiska förväntan av slumpvariabeln. Mer strikt, ungefär med en sannolikhet på 0,9973, ligger värdet av en normalfördelad stokastisk variabel i det angivna intervallet.

Tolkning av värdet av standardavvikelse

Ett större värde på standardavvikelsen indikerar en större spridning av värden i den presenterade uppsättningen med medelvärdet av uppsättningen; ett mindre värde, respektive, indikerar att värdena i setet är grupperade runt medelvärdet.

Till exempel har vi tre nummeruppsättningar: {0, 0, 14, 14}, {0, 6, 8, 14} och {6, 6, 8, 8}. Alla tre uppsättningarna har medelvärden på 7 och standardavvikelser på 7, 5 respektive 1. Den sista uppsättningen har en liten standardavvikelse eftersom värdena i uppsättningen är klustrade runt medelvärdet; den första uppsättningen har det största värdet av standardavvikelsen - värdena inom uppsättningen avviker kraftigt från medelvärdet.

I generell mening kan standardavvikelsen betraktas som ett mått på osäkerhet. Till exempel, inom fysiken, används standardavvikelsen för att bestämma felet för en serie successiva mätningar av någon kvantitet. Detta värde är mycket viktigt för att bestämma sannolikheten för fenomenet som studeras i jämförelse med det värde som förutspås av teorin: om medelvärdet för mätningarna skiljer sig mycket från de värden som förutsägs av teorin (stor standardavvikelse), då de erhållna värdena eller metoden för att erhålla dem bör kontrolleras igen.

Praktisk tillämpning

I praktiken låter standardavvikelsen dig uppskatta hur mycket värden från en uppsättning kan skilja sig från medelvärdet.

Ekonomi och finans

Portföljavkastningens standardavvikelse identifieras med portföljens risk .

I teknisk analys används standardavvikelsen för att bygga Bollinger-band , beräkna volatiliteten .

Riskbedömning och kritik

Standardavvikelsen används i stor utsträckning inom den finansiella sektorn som ett kriterium för att bedöma investeringsrisk . Enligt den amerikanske ekonomen Nassim Taleb bör detta inte göras. Så enligt teorin bör ungefär två tredjedelar av förändringarna rymmas inom vissa gränser (standardavvikelser på -1 och +1) och att fluktuationer över sju standardavvikelser är praktiskt taget omöjliga. Men i det verkliga livet, enligt Taleb, är allt annorlunda - hopp i individuella indikatorer kan överstiga 10, 20 och ibland 30 standardavvikelser. Taleb anser att riskhanterare bör undvika att använda standardavvikelseverktyg och metoder som regressionsmodeller, bestämningskoefficient (R-kvadrat) och betafaktorer. Dessutom är standardavvikelsen enligt Taleb för komplicerad för att förstå metoden. Han menar att alla som försöker bedöma risk med en enda indikator är dömd att misslyckas [3] .

Klimat

Anta att det finns två städer med samma genomsnittliga dagliga maxtemperatur, men den ena ligger vid kusten och den andra ligger i inlandet. Kuststäder är kända för att ha många olika dagliga maxtemperaturer lägre än städer i inlandet. Därför kommer standardavvikelsen för de maximala dygnstemperaturerna i kuststaden att vara mindre än i den andra staden, trots att de har samma medelvärde på detta värde, vilket i praktiken innebär att sannolikheten att den maximala lufttemperaturen på varje enskild dag på året kommer att vara starkare skiljer sig från medelvärdet, högre för en stad som ligger inne på kontinenten.

Sport

Låt oss anta att det finns flera fotbollslag som är rankade enligt någon uppsättning parametrar, till exempel antalet gjorda och insläppta mål, målchanser etc. Det är mest troligt att det bästa laget i denna grupp kommer att ha de bästa värdena i fler parametrar. Ju mindre lagets standardavvikelse för var och en av de presenterade parametrarna, desto mer förutsägbart är lagets resultat, sådana lag är balanserade. Däremot har ett lag med stor standardavvikelse svårt att förutse resultatet, vilket i sin tur förklaras av en obalans, till exempel ett starkt försvar men ett svagt anfall.

Användningen av standardavvikelsen för lagets parametrar gör att man i viss mån kan förutsäga resultatet av matchen mellan två lag, utvärdera styrkorna och svagheterna hos lagen, och därmed de valda metoderna för kamp.

Exempel

Anta att gruppen av intresse för oss ( allmän befolkning ) är en klass med åtta elever som betygsätts på ett 10-poängssystem. Eftersom vi uppskattar hela gruppen och inte ett urval av den, kan vi använda standardavvikelsen baserat på den partiska uppskattningen av variansen. För att göra detta tar vi kvadratroten av det aritmetiska medelvärdet av kvadraterna av värdenas avvikelser från deras medelvärde.

Låt elevernas betyg i klassen vara följande:

Då är medelpoängen:

Låt oss beräkna kvadratavvikelserna för elevernas betyg från deras medelbetyg:

Det aritmetiska medelvärdet av dessa värden kallas variansen :

Standardavvikelsen är lika med kvadratroten av variansen:

Denna formel är endast giltig om dessa åtta värden är populationen. Om dessa data var ett slumpmässigt urval från någon stor population (till exempel betygen från åtta slumpmässigt utvalda elever i en stor stad), skulle  nämnaren för formeln för att beräkna variansen behöva sättas n istället för n = 8  − 1 = 7:

och standardavvikelsen skulle vara:

Detta resultat kallas standardavvikelsen baserat på den opartiska skattningen av variansen. Att dividera med n  − 1 istället för n ger en opartisk uppskattning av variansen för stora populationer.

Se även

Anteckningar

  1. 1 2 3 Ivchenko G. I., Medvedev Yu. I. Introduktion till matematisk statistik. - M .  : Förlag LKI, 2010. - §2.2. Utvalda ögonblick: exakt och asymptotisk teori. - ISBN 978-5-382-01013-7 .
  2. ↑ 1 2 C. Patrignani et al. (Partikeldatagrupp). 39 STATISTIK . — I: Review of Particle Physics // Chin. Phys. C. - 2016. - Vol. 40. - P. 100001. - doi : 10.1088/1674-1137/40/10/100001 .
  3. Taleb, Goldstein, Spitsnagel, 2022 , sid. 46.

Litteratur

  • Borovikov V. STATISTICA. Konsten att analysera datordata: För proffs / V. Borovikov. - St Petersburg. : Peter, 2003. - 688 sid. - ISBN 5-272-00078-1 . .
  • Nassim Taleb, Daniel Goldstein, Mark Spitznagel. Sex vd-misstag i riskhantering // Riskhantering (Harvard Business Review Series: Topp 10 artiklar) = Om att hantera risker / Team of Authors. - M . : Alpina Publisher , 2022. - S. 41-50. — 206 sid. - ISBN 978-5-9614-8186-0 .