Variationskoefficienten

Den aktuella versionen av sidan har ännu inte granskats av erfarna bidragsgivare och kan skilja sig väsentligt från versionen som granskades den 13 november 2009; kontroller kräver 12 redigeringar .

Ej att förväxla med bestämningskoefficienten.

I sannolikhetsteori och statistik är variationskoefficienten , även känd som den relativa standardavvikelsen , ett standardmått på variansen för en sannolikhets- eller frekvensfördelning. Det uttrycks ofta i procent och definieras som förhållandet mellan standardavvikelsen σ och medelvärdet μ. CV eller RSD används ofta inom analytisk kemi för att uttrycka noggrannheten och repeterbarheten av en analys. De används också ofta inom teknik och fysik, inom kvalitetssäkringsforskning. Dessutom används CV av ekonomer och investerare i ekonomiska modeller.

Definition

Variationskoefficienten definieras som förhållandet mellan standardavvikelsen σ och medelvärdet μ: c v = [1] . Den visar graden av variabilitet i förhållande till urvalsmedelvärdet. Variationskoefficienten bör endast beräknas för data som mäts på en kvotskala, det vill säga skalor som har en signifikant noll och därför möjliggör en relativ jämförelse av två mätningar. Variationskoefficienten kanske inte har någon betydelse för intervallskaldata . Till exempel är de flesta temperaturskalor (t.ex. Celsius, Fahrenheit, etc.) intervallskalor med godtyckliga nollor, så den beräknade variationskoefficienten kommer att skilja sig beroende på vilken skala som används. Å andra sidan har Kelvin-temperaturen en signifikant noll, den fullständiga frånvaron av termisk energi, och är således en kvotskala. Enkelt uttryckt är det vettigt att säga att 20 kelvin är dubbelt så varmt som 10 kelvin, men bara på denna skala med sann absolut noll. Även om standardavvikelsen kan mätas i Kelvin, Celsius eller Fahrenheit, gäller det beräknade värdet bara för den skalan. Endast Kelvin-skalan kan användas för att beräkna den faktiska variationskoefficienten.

Mätningar som är lognormalt fördelade uppvisar stationär CV; tvärtom varierar RCC beroende på det förväntade värdet av mätningarna.

En mer robust möjlighet är kvartilskoefficienten av varians , hälften av det interkvartila intervallet dividerat med medelvärdet av kvartilerna. I de flesta fall beräknas CV för en enda oberoende variabel (till exempel en fabriksprodukt) med flera upprepade mätningar av den beroende variabeln (till exempel ett fel i tillverkningsprocessen). Data som är linjära eller till och med logaritmiskt icke-linjära och inkluderar ett kontinuerligt intervall för den oberoende variabeln med glesa mätningar på varje värde (t.ex. spridningsdiagram) kan vara mottagliga för en enda LR-beräkning med maximal sannolikhetsuppskattning .

Exempel

Datauppsättningen [100, 100, 100] har konstanta värden. Dess provstandardavvikelse är 0 och dess medelvärde är 100, vilket ger variationskoefficienten:

0 / 100 = 0

Datauppsättningen [90, 100, 110] har en större variabilitet. Dess provstandardavvikelse är 10 och dess medelvärde är 100, vilket ger variationskoefficienten:

10/100 = 0,1

Datauppsättningen [1, 5, 6, 8, 10, 40, 65, 88] har ännu mer variation. Dess provstandardavvikelse är 32,9 och dess medelvärde är 27,9, vilket ger variationskoefficienten:

32,9 / 27,9 = 1,18

Exempel på missbruk

Att jämföra variationskoefficienter mellan parametrar med hjälp av relativa enheter kan leda till skillnader som kanske inte är realistiska. Om vi ​​jämför samma uppsättning temperaturer i Celsius och Fahrenheit (båda relativa enheter, där Kelvin och Rankine är deras respektive absoluta värden):

Celsius: [0, 10, 20, 30, 40]

Fahrenheit: [32, 50, 68, 86, 104]

Standardavvikelserna är 15,81 respektive 28,46. CV för det första setet är 15,81 / 20 = 79%.

För den andra uppsättningen (vid samma temperaturer) är den 28,46/68 = 42 %.

Om till exempel datamängderna är temperaturavläsningar från två olika sensorer (en Celsiussensor och en Fahrenheitsensor) och du vill veta vilken sensor som är bättre genom att välja den med minsta avvikelse, då blir du vilseledd, om du använder CV. Problemet här är att du har dividerat med ett relativt belopp, inte ett absolut.

Jämförelse av samma datamängd, nu i absoluta enheter:

Enligt Kelvin: [273.15, 283.15, 293.15, 303.15, 313.15]

Enligt Rankin: [491.67, 509.67, 527.67, 545.67, 563.67]

Provets standardavvikelser är fortfarande 15,81 respektive 28,46, eftersom standardavvikelsen inte påverkas av den konstanta biasen. Variationskoefficienterna är dock nu 5,39 %.

Ur matematisk synvinkel är variationskoefficienten inte helt linjär. Det vill säga, för en slumpvariabel X är variationskoefficienten aX + b lika med variationskoefficienten X endast när b = 0 . I exemplet ovan kan grader Celsius endast omvandlas till grader Fahrenheit med en linjär transformation av formen ax + b med b ≠ 0, medan grader Kelvin kan omvandlas till grader Rankine genom en linjär transformationsaxel .

Betyg

När endast ett urval av data från en population är tillgängligt, kan populationens CV uppskattas med hjälp av förhållandet mellan urvalets standardavvikelse s och urvalets medelvärde x :

c v =

Men denna uppskattning, tillämpad på ett litet eller medelstort urval, tenderar att vara för oprecis: det är en partisk uppskattning . För normalfördelade data är den opartiska skattaren för ett urval av storlek n:

Lognormal data

I många applikationer kan det antas att data distribueras log-normalt (indikerat av förekomsten av skevhet i dataprovet). I sådana fall erhålls en mer exakt uppskattning från egenskaperna för lognormalfördelningen , som definieras som:

var  är provets standardavvikelse för data efter transformering av den naturliga logaritmen för .

Jämförelse med standardavvikelse

Fördelar

Variationskoefficienten är användbar eftersom standardavvikelsen för data alltid måste förstås i sammanhanget med medelvärdet för data. Däremot beror det faktiska CV-värdet inte på måttenheten, så det är ett dimensionslöst tal. För att jämföra datamängder med olika måttenheter eller mycket olika medel, använd variationskoefficienten istället för standardavvikelsen.

Nackdelar

  1. När medelvärdet är nära noll kommer variationskoefficienten att närma sig oändligheten och är därför känslig för små förändringar i medelvärdet. Detta händer ofta om värdena inte kommer från en kvotskala.
  2. Till skillnad från standardavvikelsen kan den inte användas direkt för att konstruera konfidensintervall för medelvärdet.

Applikationer

Variationskoefficienten är också vanlig inom tillämpade sannolikhetsområden som förnyelseteori , köteori och reliabilitetsteori . I dessa områden är exponentialfördelningen ofta viktigare än normalfördelningen . Standardavvikelsen för en exponentialfördelning är lika med dess medelvärde, så variationskoefficienten är 1. Fördelningar med CV < 1 (till exempel Erlang-fördelningen ) anses ha låg varians, medan distributioner med CV > 1 (t.ex. , den hyperexponentiella fördelningen ) anses ha hög varians . Några av formlerna i dessa fält uttrycks i termer av den kvadratiska variationskoefficienten, ofta förkortad som KCV. I huvudsak ersätter CV termen standardavvikelse med standardavvikelse. Även om många naturliga processer visar en korrelation mellan medelvärdet och mängden variation runt det, måste precisionssensoranordningar utformas så att variationskoefficienten är nära noll, dvs. ger ett konstant absolut fel över deras driftsområde.

I försäkringstekniska beräkningar är CV känt som enhetlig risk .

Vid industriell bearbetning av fasta ämnen är CV särskilt viktigt för att mäta graden av homogenitet hos en pulverblandning. Att jämföra den beräknade CV:n med specifikationen kommer att avgöra om tillräcklig blandning har uppnåtts.

Som ett mått på ekonomisk ojämlikhet

Variationskoefficienten uppfyller kraven för att mäta ekonomisk ojämlikhet . Om x (med element x i ) är en lista över värden för en ekonomisk indikator (till exempel förmögenhet), och x i är förmögenheten för agent i, är följande krav uppfyllda:

1. Anonymitet — c v beror inte på ordningen på listan x. Detta följer av att variansen och medelvärdet inte beror på ordningen i listan x.

2. c v (x)=c v (αx), där α är ett reellt tal .

3. Om {x, x} är en lista x kopplad till sig själv, då c v ({x, x})=c v (x).

4. Pigou-Dalton-överföringsprincipen: när förmögenhet överförs från en rikare agent i till en fattigare agent j (dvs. x i > x j ) utan att ändra deras rang, då minskar c v och vice versa.

c v tar dess minimivärde lika med noll för fullständig likhet (alla x i är lika). Den mest anmärkningsvärda nackdelen är att den inte är begränsad från ovan, så den kan inte normaliseras till att vara inom ett fast intervall (som Gini-koefficienten , som är gränsad mellan 0 och 1). Den lämpar sig dock bättre för analys, i motsats till Gini-koefficienten.

Distribution

Med tanke på att negativa och små positiva värden för provmedelvärdet förekommer med försumbar frekvens, visades sannolikhetsfördelningen av variationskoefficienten för ett urval av storlek n av Hendrix och Roby :

där symbolen ∑ indikerar att summeringen endast avslutas av jämna värden på n−1-i , det vill säga om n är udda, summa över jämna i-värden, och om n är jämn , summa endast över udda i-värden.

Detta är användbart när du konstruerar statistiska hypoteser eller konfidensintervall. Statistisk slutledning för variationskoefficienten i normalfördelad data baseras ofta på McKays chi-kvadratapproximation för variationskoefficienten .

Liknande figurer

De standardiserade momenten är liknande förhållanden,  , där  dessa är de k: te momenten kring medelvärdet, som också är dimensionslösa och skalinvarianta. Varians-till-medelförhållandet,  , är ett annat liknande förhållande, men som inte är dimensionslöst. Se normalisering för fler relationer .

Andra relevanta nyckeltal inkluderar:

1. prestanda ,

2. Standardiserat moment ,

3. Variansindex ,

4. Fano faktor ,

5. Standardfel

Se även