Korrelation

Korrelation (från latin  correlatio "ratio"), eller korrelationsberoende  - ett statistiskt samband mellan två eller flera slumpvariabler (eller variabler som kan betraktas som sådana med en acceptabel grad av noggrannhet), medan förändringar i värdena för en eller fler av dessa kvantiteter åtföljs av en systematisk förändring av värden av en annan eller andra kvantiteter [1] .

Ett matematiskt mått på korrelationen mellan två stokastiska variabler är korrelationsförhållandet [2] eller korrelationskoefficienten (eller ) [1] . Om en förändring i en stokastisk variabel inte leder till en regelbunden förändring av en annan stokastisk variabel, utan leder till en förändring av en annan statistisk egenskap hos denna stokastisk variabel, så betraktas ett sådant samband inte som en korrelation, även om det är statistiskt [3] .

För första gången introducerades termen korrelation i vetenskaplig cirkulation av den franske paleontologen Georges Cuvier på 1700-talet. Han utvecklade "korrelationslagen" för delar och organ av levande varelser, med hjälp av vilken det är möjligt att återställa utseendet på ett fossilt djur, som bara har en del av sina kvarlevor till sitt förfogande. I statistiken användes ordet "korrelation" först av den engelske biologen och statistikern Francis Galton i slutet av 1800-talet [4] .

Korrelation och sammankoppling av storheter

En signifikant korrelation mellan två slumpvariabler är alltid bevis på att det finns något statistiskt samband i ett givet urval, men detta samband behöver inte nödvändigtvis observeras för ett annat urval och vara av kausal karaktär. Den ofta frestande enkelheten i en korrelationsstudie uppmuntrar forskaren att dra falska intuitiva slutsatser om förekomsten av ett orsakssamband mellan par av egenskaper, medan korrelationskoefficienterna endast etablerar statistiska samband. Om man till exempel tittar på bränder i en viss stad kan man hitta en mycket hög korrelation mellan skadorna orsakade av branden och antalet brandmän som är inblandade i att släcka branden, och detta samband kommer att vara positivt. Detta leder dock inte till slutsatsen att "en ökning av antalet brandmän leder till en ökning av skadorna", och ännu mindre kommer det att göras ett framgångsrikt försök att minimera skadorna från bränder genom att eliminera brandkåren [ 5] . Korrelationen mellan två storheter kan indikera att det finns en gemensam orsak, även om fenomenen i sig inte direkt interagerar. Till exempel orsakar isbildning både en ökning av skador på grund av fall och en ökning av olyckor bland fordon. I det här fallet kommer två kvantiteter (skador på grund av fotgängares fall och fordonsolyckor) att vara korrelerade, även om de inte är kausalt relaterade till varandra, utan bara har en tredje part gemensam orsak - svart is .

Samtidigt betyder frånvaron av en korrelation mellan två storheter inte att det inte finns något samband mellan dem. Till exempel kan beroendet ha en komplex icke-linjär karaktär, som korrelationen inte avslöjar.

Vissa typer av korrelationskoefficienter kan vara positiva eller negativa. I det första fallet antas det att vi endast kan bestämma närvaron eller frånvaron av en anslutning, och i det andra också dess riktning. Om det antas att värdena för variablerna ges en strikt ordningsrelation , är en negativ korrelation  en korrelation där en ökning av en variabel är associerad med en minskning i en annan. I detta fall kommer korrelationskoefficienten att vara negativ. En positiv korrelation under sådana förhållanden är en där en ökning av en variabel är associerad med en ökning av en annan variabel. Det är också möjligt att det inte finns något statistiskt samband - till exempel för oberoende slumpvariabler .

Korrelationsmått

Metoden för att beräkna korrelationskoefficienten beror på vilken typ av skala som variablerna avser. Så för att mäta variabler med intervall och kvantitativa skalor är det nödvändigt att använda Pearson-korrelationskoefficienten (korrelation av produktmoment ). Om minst en av de två variablerna har en ordinalskala, eller inte är normalfördelad , måste Spearmans eller (tau) Kendalls rangkorrelation användas. I fallet när en av de två variablerna är dikotom används en punktkorrelation med två serier, och om båda variablerna är dikotom  används en fyrafältskorrelation. Beräkningen av korrelationskoefficienten mellan två icke-dikotoma variabler är meningsfull endast när relationen mellan dem är linjär (enriktad).

Parametriska indikatorer för korrelation

Kovarians

En viktig egenskap hos den gemensamma fördelningen av två stokastiska variabler är kovariansen (eller korrelationsmomentet ). Kovariansen är ett andra ordningens gemensamt centralt moment [6] . Kovarians definieras som den matematiska förväntan av produkten av avvikelser från slumpvariabler [7] :

,

var  är den matematiska förväntan (i den engelskspråkiga litteraturen accepteras beteckningen från förväntat värde ).

Kovariansegenskaper :

  • Kovariansen av två oberoende stokastiska variabler och är lika med noll [8] .
Bevis

Eftersom och är oberoende slumpvariabler, deras avvikelser och är också oberoende. Genom att använda det faktum att den matematiska förväntan av produkten av oberoende slumpvariabler är lika med produkten av de matematiska förväntningarna på faktorerna, och den matematiska förväntan av avvikelsen är noll, har vi

  • Det absoluta värdet av kovariansen för två slumpvariabler och överstiger inte det geometriska medelvärdet av deras dispersioner : [9] .
Bevis

Låt oss introducera en slumpvariabel (där är standardavvikelsen ) och hitta dess varians . Efter att ha gjort beräkningarna får vi:

Alla avvikelser är icke-negativa, så

Härifrån

Genom att införa en slumpvariabel , på liknande sätt

Genom att kombinera de erhållna ojämlikheterna har vi

Eller

Så,

  • Kovarians har en dimension som är lika med produkten av dimensionen av slumpvariabler, det vill säga kovariansens storlek beror på måttenheterna för oberoende variabler. Denna egenskap hos kovarians gör det svårt att använda den för korrelationsanalys [8] .
Linjär korrelationskoefficient

För att eliminera bristen på kovarians introducerades en linjär korrelationskoefficient (eller Pearsons korrelationskoefficient ), som utvecklades av Karl Pearson , Francis Edgeworth och Raphael Weldon på 90-talet av XIX-talet. Korrelationskoefficienten beräknas med formeln [10] [8] :

där ,  är medelvärdet för proverna.

Korrelationskoefficienten varierar från minus ett till plus ett [11] .

Bevis

Dela båda delarna av den dubbla ojämlikheten med vi får

Den linjära korrelationskoefficienten är relaterad till regressionskoefficienten i form av följande beroende: där  är regressionskoefficienten,  är standardavvikelsen för motsvarande faktorattribut [12] . Förhållandet mellan regressionskoefficienten och standardavvikelsen Y beror inte på enheterna för Y. Med en linjär transformation av datamängden och den linjära korrelationskoefficienten blir lika med .

Icke-parametriska mått på korrelation

Kendalls rangkorrelationskoefficient

Den används för att identifiera sambandet mellan kvantitativa eller kvalitativa indikatorer, om de kan rangordnas. Värdena för X-indikatorn är inställda i stigande ordning och tilldelade rang. Värdena för Y-indikatorn rankas och Kendalls korrelationskoefficient beräknas :

,

var .

 är det totala antalet observationer efter de aktuella observationerna med ett stort värde på Y-rang.

 är det totala antalet observationer som följer efter de aktuella observationerna med lägre Y-rang (lika rangordningar beaktas inte!)

Om de studerade data upprepas (har samma rangordning) används den justerade Kendall-korrelationskoefficienten i beräkningarna:

 är antalet relaterade rangordningar i serien X respektive Y.

Spearmans rankkorrelationskoefficient

Graden av beroende av två slumpmässiga variabler (egenskaper) och kan karakteriseras baserat på analysen av de erhållna resultaten . Varje indikator tilldelas en rang. Värdenas rangordning är i naturlig ordning . Rangen skrivs som och motsvarar rangen för det par för vilket rangen är . Baserat på de erhållna rangorden och deras skillnader beräknas och Spearman- korrelationskoefficienten beräknas :

Värdet på koefficienten varierar från −1 (sekvenserna av rangordningar är helt motsatta) till +1 (sekvenserna av rangordningar är helt desamma). Ett värde på noll indikerar att funktionerna är oberoende.

Fechner tecken korrelationskoefficient

Antalet sammanträffanden och oöverensstämmelse mellan tecken på avvikelser av indikatorernas värden från deras genomsnittliga värde beräknas.

C är antalet par för vilka tecknen på värdenas avvikelser från deras medel sammanfaller.

H är antalet par för vilka tecknen på värdenas avvikelser från deras medel inte matchar.

Multipelkorrelationskoefficient Multipel rangkorrelationskoefficient (konkordans)

 är antalet grupper som är rankade.

 är antalet variabler.

 är rangen för -faktorn av y -en.

Betydelse:

, då förkastas hypotesen om inget samband.

I fallet med relaterade rang:

Korrelationskoefficientens egenskaper

om vi tar kovariansen som den skalära produkten av två slumpvariabler , då kommer normen för den slumpmässiga variabeln att vara lika med , och konsekvensen av Cauchy-Bunyakovsky-olikheten blir: .
  • Korrelationskoefficienten är lika om och endast om och är linjärt beroende (exklusive händelser med noll sannolikhet, när flera punkter "slår ut" från den räta linjen, vilket återspeglar det linjära beroendet av stokastiska variabler):
, var . Dessutom, i det här fallet, sammanfaller tecknen och : . Bevis

Betrakta slumpvariablerna X och Y med noll medelvärden och varianser lika med respektive . Låt oss beräkna variansen för den slumpmässiga variabeln :

Förutsatt att korrelationskoefficienten

då kommer det föregående uttrycket att skrivas om i formen

Eftersom du alltid kan välja talen a och b så att (till exempel om , då tar vi en godtycklig a och ), så är variansen för dessa a och b , och därför nästan säkert. Men detta betyder ett linjärt samband mellan X och Y. Beviset är uppenbarligen generaliserat till fallet med X och Y med medel som inte är noll, endast i ovanstående beräkningar kommer det att vara nödvändigt att ersätta X med och Y med .

  • Låt slumpvariabler vara sådana att , . Sedan: , var är den betingade matematiska förväntan.
  • Om oberoende slumpvariabler, då . Det omvända är inte sant i allmänhet.

Korrelationsanalys

Korrelationsanalys är en statistisk  databearbetningsmetod som mäter styrkan i sambandet mellan två eller flera variabler. Korrelationsanalys är nära besläktad med regressionsanalys (termen " korrelations-regressionsanalys ", som är ett mer allmänt statistiskt begrepp, finns också ofta ), den avgör behovet av att inkludera vissa faktorer i den multipla regressionsekvationen, och utvärderar också resulterande regressionsekvation för efterlevnadsidentifierade relationer (med bestämningskoefficienten ) [1] [2] .

Begränsningar av korrelationsanalys

  1. Ansökan är möjlig om det finns tillräckligt många observationer att studera. I praktiken tror man att antalet observationer bör vara minst 5-6 gånger antalet faktorer (det finns också en rekommendation att använda en andel som är minst 10 gånger antalet faktorer). Om antalet observationer överstiger antalet faktorer med tiotals gånger, kommer lagen om stora siffror in i spelet , vilket säkerställer ömsesidig upphävande av slumpmässiga fluktuationer [13] .
  2. Det är nödvändigt att helheten av värdena för alla faktoriella och effektiva funktioner följer den multivariata normalfördelningen . Om populationens volym är otillräcklig för formell testning av fördelningens normalitet, bestäms distributionslagen visuellt utifrån korrelationsfältet . Om en linjär trend observeras i platsen för punkter i detta fält, kan det antas att uppsättningen av initiala data följer normalfördelningslagen [14] .
  3. Den initiala uppsättningen värden bör vara kvalitativt homogen [13] .
  4. Faktumet om korrelation ger i sig inte skäl att hävda att en av variablerna föregår eller är orsaken till förändringar, eller att variablerna generellt sett är kausalt relaterade till varandra, och effekten av den tredje faktorn inte observeras [5 ] .

Omfattning

Denna metod för att bearbeta statistiska data är mycket populär inom ekonomi , astrofysik och samhällsvetenskap (särskilt inom psykologi och sociologi ), även om omfattningen av korrelationskoefficienter är omfattande: kvalitetskontroll av industriprodukter, metallurgi , jordbrukskemi , hydrobiologi , biometri och andra . Inom olika tillämpade branscher accepteras olika intervallgränser för att bedöma kopplingens täthet och betydelse.

Metodens popularitet beror på två punkter: korrelationskoefficienterna är relativt lätta att beräkna, deras tillämpning kräver ingen speciell matematisk träning. Kombinerat med den lätta tolkningen har koefficientens enkla tillämpning lett till dess utbredda användning inom området för statistisk dataanalys.

Se även

Anteckningar

  1. 1 2 3 Shmoylova, 2002 , sid. 272.
  2. 1 2 Eliseeva, Yuzbashev, 2002 , sid. 232.
  3. Eliseeva, Yuzbashev, 2002 , sid. 228.
  4. Eliseeva, Yuzbashev, 2002 , sid. 228-229.
  5. 1 2 Eliseeva, Yuzbashev, 2002 , sid. 229.
  6. Suslov, Ibragimov, Talysheva, Tsyplakov, 2005 , sid. 141.
  7. Gmurman, 2004 , sid. 176-177.
  8. 1 2 3 Gmurman, 2004 , sid. 177.
  9. Gmurman, 2004 , sid. 178-179.
  10. Shmoylova, 2002 , sid. 300.
  11. Gmurman, 2004 , sid. 179.
  12. Shmoylova, 2002 , sid. 301.
  13. 1 2 Eliseeva, Yuzbashev, 2002 , sid. 230.
  14. Shmoylova, 2002 , sid. 275.

Litteratur

  • Gmurman V. E. Sannolikhetsteori och matematisk statistik: Lärobok för gymnasieskolor. — 10:e upplagan, stereotyp. - Moskva: Högre skola, 2004. - 479 s. —ISBN 5-06-004214-6.
  • Eliseeva I. I. , Yuzbashev M. M. Allmän teori om statistik: Lärobok / Ed. I. I. Eliseeva. - 4:e upplagan, reviderad och förstorad. - Moskva: Finans och statistik, 2002. - 480 sid. — ISBN 5-279-01956-9 .
  • Korrelationsanalys  / A. V. Prokhorov // Great Russian Encyclopedia  : [i 35 volymer]  / kap. ed. Yu. S. Osipov . - M .  : Great Russian Encyclopedia, 2004-2017.
  • General Theory of Statistics: Lärobok / Ed. R.A. Shmoylova . — 3:e upplagan, reviderad. - Moskva: Finans och statistik, 2002. - 560 s. — ISBN 5-279-01951-8 .
  • Suslov V. I., Ibragimov N. M., Talysheva L. P., Tsyplakov A. A. Ekonometri. - Novosibirsk: SO RAN, 2005. - 744 sid. — ISBN 5-7692-0755-8 .

Länkar