Korrelation (från latin correlatio "ratio"), eller korrelationsberoende - ett statistiskt samband mellan två eller flera slumpvariabler (eller variabler som kan betraktas som sådana med en acceptabel grad av noggrannhet), medan förändringar i värdena för en eller fler av dessa kvantiteter åtföljs av en systematisk förändring av värden av en annan eller andra kvantiteter [1] .
Ett matematiskt mått på korrelationen mellan två stokastiska variabler är korrelationsförhållandet [2] eller korrelationskoefficienten (eller ) [1] . Om en förändring i en stokastisk variabel inte leder till en regelbunden förändring av en annan stokastisk variabel, utan leder till en förändring av en annan statistisk egenskap hos denna stokastisk variabel, så betraktas ett sådant samband inte som en korrelation, även om det är statistiskt [3] .
För första gången introducerades termen korrelation i vetenskaplig cirkulation av den franske paleontologen Georges Cuvier på 1700-talet. Han utvecklade "korrelationslagen" för delar och organ av levande varelser, med hjälp av vilken det är möjligt att återställa utseendet på ett fossilt djur, som bara har en del av sina kvarlevor till sitt förfogande. I statistiken användes ordet "korrelation" först av den engelske biologen och statistikern Francis Galton i slutet av 1800-talet [4] .
En signifikant korrelation mellan två slumpvariabler är alltid bevis på att det finns något statistiskt samband i ett givet urval, men detta samband behöver inte nödvändigtvis observeras för ett annat urval och vara av kausal karaktär. Den ofta frestande enkelheten i en korrelationsstudie uppmuntrar forskaren att dra falska intuitiva slutsatser om förekomsten av ett orsakssamband mellan par av egenskaper, medan korrelationskoefficienterna endast etablerar statistiska samband. Om man till exempel tittar på bränder i en viss stad kan man hitta en mycket hög korrelation mellan skadorna orsakade av branden och antalet brandmän som är inblandade i att släcka branden, och detta samband kommer att vara positivt. Detta leder dock inte till slutsatsen att "en ökning av antalet brandmän leder till en ökning av skadorna", och ännu mindre kommer det att göras ett framgångsrikt försök att minimera skadorna från bränder genom att eliminera brandkåren [ 5] . Korrelationen mellan två storheter kan indikera att det finns en gemensam orsak, även om fenomenen i sig inte direkt interagerar. Till exempel orsakar isbildning både en ökning av skador på grund av fall och en ökning av olyckor bland fordon. I det här fallet kommer två kvantiteter (skador på grund av fotgängares fall och fordonsolyckor) att vara korrelerade, även om de inte är kausalt relaterade till varandra, utan bara har en tredje part gemensam orsak - svart is .
Samtidigt betyder frånvaron av en korrelation mellan två storheter inte att det inte finns något samband mellan dem. Till exempel kan beroendet ha en komplex icke-linjär karaktär, som korrelationen inte avslöjar.
Vissa typer av korrelationskoefficienter kan vara positiva eller negativa. I det första fallet antas det att vi endast kan bestämma närvaron eller frånvaron av en anslutning, och i det andra också dess riktning. Om det antas att värdena för variablerna ges en strikt ordningsrelation , är en negativ korrelation en korrelation där en ökning av en variabel är associerad med en minskning i en annan. I detta fall kommer korrelationskoefficienten att vara negativ. En positiv korrelation under sådana förhållanden är en där en ökning av en variabel är associerad med en ökning av en annan variabel. Det är också möjligt att det inte finns något statistiskt samband - till exempel för oberoende slumpvariabler .
Metoden för att beräkna korrelationskoefficienten beror på vilken typ av skala som variablerna avser. Så för att mäta variabler med intervall och kvantitativa skalor är det nödvändigt att använda Pearson-korrelationskoefficienten (korrelation av produktmoment ). Om minst en av de två variablerna har en ordinalskala, eller inte är normalfördelad , måste Spearmans eller (tau) Kendalls rangkorrelation användas. I fallet när en av de två variablerna är dikotom används en punktkorrelation med två serier, och om båda variablerna är dikotom används en fyrafältskorrelation. Beräkningen av korrelationskoefficienten mellan två icke-dikotoma variabler är meningsfull endast när relationen mellan dem är linjär (enriktad).
En viktig egenskap hos den gemensamma fördelningen av två stokastiska variabler är kovariansen (eller korrelationsmomentet ). Kovariansen är ett andra ordningens gemensamt centralt moment [6] . Kovarians definieras som den matematiska förväntan av produkten av avvikelser från slumpvariabler [7] :
,var är den matematiska förväntan (i den engelskspråkiga litteraturen accepteras beteckningen från förväntat värde ).
Kovariansegenskaper :
Eftersom och är oberoende slumpvariabler, deras avvikelser och är också oberoende. Genom att använda det faktum att den matematiska förväntan av produkten av oberoende slumpvariabler är lika med produkten av de matematiska förväntningarna på faktorerna, och den matematiska förväntan av avvikelsen är noll, har vi
Låt oss introducera en slumpvariabel (där är standardavvikelsen ) och hitta dess varians . Efter att ha gjort beräkningarna får vi:
Alla avvikelser är icke-negativa, så
Härifrån
Genom att införa en slumpvariabel , på liknande sätt
Genom att kombinera de erhållna ojämlikheterna har vi
Eller
Så,
För att eliminera bristen på kovarians introducerades en linjär korrelationskoefficient (eller Pearsons korrelationskoefficient ), som utvecklades av Karl Pearson , Francis Edgeworth och Raphael Weldon på 90-talet av XIX-talet. Korrelationskoefficienten beräknas med formeln [10] [8] :
där , är medelvärdet för proverna.
Korrelationskoefficienten varierar från minus ett till plus ett [11] .
BevisDela båda delarna av den dubbla ojämlikheten med vi får
Den linjära korrelationskoefficienten är relaterad till regressionskoefficienten i form av följande beroende: där är regressionskoefficienten, är standardavvikelsen för motsvarande faktorattribut [12] . Förhållandet mellan regressionskoefficienten och standardavvikelsen Y beror inte på enheterna för Y. Med en linjär transformation av datamängden och den linjära korrelationskoefficienten blir lika med .
Den används för att identifiera sambandet mellan kvantitativa eller kvalitativa indikatorer, om de kan rangordnas. Värdena för X-indikatorn är inställda i stigande ordning och tilldelade rang. Värdena för Y-indikatorn rankas och Kendalls korrelationskoefficient beräknas :
,
var .
är det totala antalet observationer efter de aktuella observationerna med ett stort värde på Y-rang.
är det totala antalet observationer som följer efter de aktuella observationerna med lägre Y-rang (lika rangordningar beaktas inte!)
Om de studerade data upprepas (har samma rangordning) används den justerade Kendall-korrelationskoefficienten i beräkningarna:
är antalet relaterade rangordningar i serien X respektive Y.
Spearmans rankkorrelationskoefficientGraden av beroende av två slumpmässiga variabler (egenskaper) och kan karakteriseras baserat på analysen av de erhållna resultaten . Varje indikator tilldelas en rang. Värdenas rangordning är i naturlig ordning . Rangen skrivs som och motsvarar rangen för det par för vilket rangen är . Baserat på de erhållna rangorden och deras skillnader beräknas och Spearman- korrelationskoefficienten beräknas :
Värdet på koefficienten varierar från −1 (sekvenserna av rangordningar är helt motsatta) till +1 (sekvenserna av rangordningar är helt desamma). Ett värde på noll indikerar att funktionerna är oberoende.
Fechner tecken korrelationskoefficientAntalet sammanträffanden och oöverensstämmelse mellan tecken på avvikelser av indikatorernas värden från deras genomsnittliga värde beräknas.
C är antalet par för vilka tecknen på värdenas avvikelser från deras medel sammanfaller.
H är antalet par för vilka tecknen på värdenas avvikelser från deras medel inte matchar.
Multipelkorrelationskoefficient Multipel rangkorrelationskoefficient (konkordans)
är antalet grupper som är rankade.
är antalet variabler.
är rangen för -faktorn av y -en.
Betydelse:
, då förkastas hypotesen om inget samband.
I fallet med relaterade rang:
Betrakta slumpvariablerna X och Y med noll medelvärden och varianser lika med respektive . Låt oss beräkna variansen för den slumpmässiga variabeln :
Förutsatt att korrelationskoefficienten
då kommer det föregående uttrycket att skrivas om i formen
Eftersom du alltid kan välja talen a och b så att (till exempel om , då tar vi en godtycklig a och ), så är variansen för dessa a och b , och därför nästan säkert. Men detta betyder ett linjärt samband mellan X och Y. Beviset är uppenbarligen generaliserat till fallet med X och Y med medel som inte är noll, endast i ovanstående beräkningar kommer det att vara nödvändigt att ersätta X med och Y med .
Korrelationsanalys är en statistisk databearbetningsmetod som mäter styrkan i sambandet mellan två eller flera variabler. Korrelationsanalys är nära besläktad med regressionsanalys (termen " korrelations-regressionsanalys ", som är ett mer allmänt statistiskt begrepp, finns också ofta ), den avgör behovet av att inkludera vissa faktorer i den multipla regressionsekvationen, och utvärderar också resulterande regressionsekvation för efterlevnadsidentifierade relationer (med bestämningskoefficienten ) [1] [2] .
Denna metod för att bearbeta statistiska data är mycket populär inom ekonomi , astrofysik och samhällsvetenskap (särskilt inom psykologi och sociologi ), även om omfattningen av korrelationskoefficienter är omfattande: kvalitetskontroll av industriprodukter, metallurgi , jordbrukskemi , hydrobiologi , biometri och andra . Inom olika tillämpade branscher accepteras olika intervallgränser för att bedöma kopplingens täthet och betydelse.
Metodens popularitet beror på två punkter: korrelationskoefficienterna är relativt lätta att beräkna, deras tillämpning kräver ingen speciell matematisk träning. Kombinerat med den lätta tolkningen har koefficientens enkla tillämpning lett till dess utbredda användning inom området för statistisk dataanalys.
Ordböcker och uppslagsverk | |
---|---|
I bibliografiska kataloger |
|