Bestämningskoefficienten ( - R-kvadrat ) är andelen av variansen för den beroende variabeln som förklaras av beroendemodellen i fråga , det vill säga förklaringsvariablerna . Mer exakt är det en minus andelen oförklarad varians (variansen av modellens slumpmässiga fel, eller villkorad av faktorerna för variansen för den beroende variabeln) i variansen av den beroende variabeln. Det anses vara ett universellt mått på beroendet av en slumpvariabel av många andra. I det speciella fallet med linjärt beroende är kvadraten på den så kallade multipelkorrelationskoefficientenmellan beroende variabel och förklarande variabler. I synnerhet för en parad linjär regressionsmodell är bestämningskoefficienten lika med kvadraten på den vanliga korrelationskoefficienten mellan y och x .
Den sanna bestämningskoefficienten för modellen för beroendet av en slumpvariabel y på faktorerna x bestäms enligt följande:
där är variansen för den slumpmässiga variabeln y och är den villkorliga (med faktorer x ) variansen för den beroende variabeln (variansen av modellfelet).
Denna definition använder sanna parametrar som kännetecknar fördelningen av slumpvariabler . Om vi använder en provuppskattning av värdena för motsvarande varianser får vi formeln för provbestämningskoefficienten (vilket vanligtvis menas med bestämningskoefficienten):
där är summan av kvadraterna av regressionsresterna, är de faktiska och beräknade värdena för variabeln som förklaras.
är den totala summan av kvadrater.
I fallet med linjär regression med en konstant , där är den förklarade summan av kvadrater, så vi får en enklare definition i detta fall - bestämningskoefficienten är andelen av den förklarade kvadratsumman i summan :
Det bör betonas att denna formel endast är giltig för en modell med en konstant, i det allmänna fallet är det nödvändigt att använda den föregående formeln .
Huvudproblemet med den (selektiva) applikationen är att dess värde ökar ( minskar inte ) av att lägga till nya variabler i modellen, även om dessa variabler inte har något att göra med variabeln som förklaras! Därför är jämförelsen av modeller med olika antal faktorer med användning av bestämningskoefficienten generellt sett felaktig. För dessa ändamål kan alternativa indikatorer användas.
För att kunna jämföra modeller med ett annat antal faktorer så att antalet regressorer (faktorer) inte påverkar statistiken , används vanligtvis en justerad bestämningskoefficient , som använder opartiska skattningar av varianser:
vilket ger ett straff för ytterligare ingående faktorer, där n är antalet observationer och k är antalet parametrar.
Denna indikator är alltid mindre än en, men teoretiskt sett kan den vara mindre än noll (endast med ett mycket litet värde av den vanliga bestämningskoefficienten och ett stort antal faktorer). Därför går tolkningen av indikatorn som en "aktie" förlorad. Ändå är användningen av indikatorn i jämförelse ganska motiverad.
För modeller med samma beroende variabel och samma urvalsstorlek är en jämförelse av modeller med den justerade bestämningskoefficienten ekvivalent med att jämföra dem med modellens kvarvarande varians eller standardfel . Den enda skillnaden är att ju lägre de sista kriterierna är, desto bättre.
AIC – Akaike information criterium – används uteslutande för att jämföra modeller. Ju lägre värde, desto bättre. Används ofta för att jämföra tidsseriemodeller med olika mängd fördröjningar. , där k är antalet modellparametrar.
BIC eller SC - Bayesian Schwartz Information Criteria - används och tolkas på samma sätt som AIC. . Ger ett större straff för att ta med extra lags i modellen än AIC.
I frånvaro av en konstant i den linjära multipla LSM- regressionen kan egenskaperna för bestämningskoefficienten kränkas för en viss implementering . Därför kan regressionsmodeller med och utan fri term inte jämföras med kriteriet . Detta problem löses genom att konstruera en generaliserad bestämningskoefficient , som är densamma som den initiala för fallet med LSM-regression med en skärning, och för vilken de fyra egenskaperna som anges ovan är uppfyllda. Kärnan i denna metod är att betrakta projektionen av en enhetsvektor på planet för förklarande variabler.
För fallet med regression utan en fri term:
,
där X är en matris av nxk faktorvärden, är en projektion på X-planet, , där är en enhetsvektor nx1.
med villkoret lätt modifiering , är också lämplig för att jämföra regressioner byggda med: LSM, generaliserade minsta kvadrater (GMLS), villkorade minsta kvadrater (GMLS), generaliserade villkorade minsta kvadrater (GMLS).
Grunden för bestämningskoefficienten är regressionsanalys och korrelationskoefficient . Den brittiske naturforskaren Sir Francis Galton (1822–1911) grundade regressionsanalys på 1870-talet. Han, liksom sin kusin Charles Darwin , var sonson till Erasmus Darwin . Galton var känd för sin intensiva passion för att samla in data av alla slag. Till exempel samlade han in data om chin sweet pea frön . Genom att jämföra frödiametrar konstruerade han vad som idag är allmänt känt som ett korrelationsdiagram. Sambandet han upptäckte i denna aktivitet, kallade han först "reversion" (omvändning); dock valde han senare namnet "regression". Genom att analysera frön upptäckte han fenomenet regression mot centrum, enligt vilket - efter en mycket olycklig förändring, närmar sig den efterföljande förändringen igen genomsnittet: medeldiametern för avkomman av större frön var mindre än medeldiametern för föräldrarnas frön (förändringar utvecklas). I sina korrelationsdiagram ritade han en trendlinje för vilken han använde korrelationskoefficienten som lutningen. [ett]
Begreppet " spridning " myntades av statistikern Ronald Fisher (1890-1962) i hans papper från 1918 med titeln " The Correlation between Relatives on the supposition of Mendelian Inheritance " [2] . Fisher var en av 1900-talets mest framstående statistiker och är känd för sina bidrag till evolutionsteorin. F-testet , nära besläktat med bestämningskoefficienten, är också uppkallat efter honom. Karl Pearson (1857-1936), grundaren av biometri , gav en formell matematisk motivering för korrelationskoefficienten, vars kvadrat är bestämningskoefficienten. [3]
Bestämningskoefficienten har kritiserats hårt under de följande åren. Detta hände eftersom det har egenskapen att ju fler oberoende variabler desto större blir det. Och detta är oberoende av om ytterligare "förklaringsvariabler" bidrar till "förklaringskraft". För att ta hänsyn till detta föreslog ekonometrikern Henri Theil (1924–2000) 1961 en Justerad bestämningskoefficient [4] , som tar hänsyn till förlusten av frihetsgrader som är förknippad med en ökning av antalet förklaringsvariabler. Den justerade bestämningskoefficienten ändras på grund av den påföljd som åläggs modellen när antalet variabler ökar. Den tyske vetenskapsmannen Horst Rinne kritiserade dock detta tillvägagångssätt [5] för att inte straffa tillräckligt för förlusten av frihetsgraden när antalet förklarande variabler ökar.
Höga värden på bestämningskoefficienten indikerar generellt sett inte närvaron av ett orsakssamband mellan variablerna (liksom i fallet med den vanliga korrelationskoefficienten). Till exempel, om variabeln som förklaras och de faktorer som faktiskt inte är relaterade till den förklarade variabeln har en ökande dynamik, så blir bestämningskoefficienten ganska hög. Därför är modellens logiska och semantiska tillräcklighet av största vikt. Dessutom är det nödvändigt att använda kriterier för en heltäckande analys av modellens kvalitet.