Bestämningskoefficient

Den aktuella versionen av sidan har ännu inte granskats av erfarna bidragsgivare och kan skilja sig väsentligt från versionen som granskades den 22 april 2022; verifiering kräver 1 redigering .

Bestämningskoefficienten (  - R-kvadrat ) är andelen av variansen för den beroende variabeln som förklaras av beroendemodellen i fråga , det vill säga förklaringsvariablerna . Mer exakt är det en minus andelen oförklarad varians (variansen av modellens slumpmässiga fel, eller villkorad av faktorerna för variansen för den beroende variabeln) i variansen av den beroende variabeln. Det anses vara ett universellt mått på beroendet av en slumpvariabel av många andra. I det speciella fallet med linjärt beroende är kvadraten på den så kallade multipelkorrelationskoefficientenmellan beroende variabel och förklarande variabler. I synnerhet för en parad linjär regressionsmodell är bestämningskoefficienten lika med kvadraten på den vanliga korrelationskoefficienten mellan y och x .

Definition och formel

Den sanna bestämningskoefficienten för modellen för beroendet av en slumpvariabel y på faktorerna x bestäms enligt följande:

där  är variansen för den slumpmässiga variabeln y och  är den villkorliga (med faktorer x ) variansen för den beroende variabeln (variansen av modellfelet).

Denna definition använder sanna parametrar som kännetecknar fördelningen av slumpvariabler . Om vi ​​använder en provuppskattning av värdena för motsvarande varianser får vi formeln för provbestämningskoefficienten (vilket vanligtvis menas med bestämningskoefficienten):

där  är summan av kvadraterna av regressionsresterna,  är de faktiska och beräknade värdena för variabeln som förklaras.

 är den totala summan av kvadrater.

I fallet med linjär regression med en konstant , där  är den förklarade summan av kvadrater, så vi får en enklare definition i detta fall - bestämningskoefficienten är andelen av den förklarade kvadratsumman i summan :

Det bör betonas att denna formel endast är giltig för en modell med en konstant, i det allmänna fallet är det nödvändigt att använda den föregående formeln .

Tolkning

  1. Bestämningskoefficienten för en modell med en konstant tar värden från 0 till 1. Ju närmare värdet på koefficienten är 1, desto starkare blir beroendet. Vid utvärdering av regressionsmodeller tolkas detta som modellens anpassning till data. För acceptabla modeller antas det att bestämningskoefficienten måste vara minst 50 % (i detta fall överstiger multipelkorrelationskoefficienten 70 % i absolut värde). Modeller med en bestämningskoefficient över 80 % kan anses vara ganska bra (korrelationskoefficienten överstiger 90 %). Värdet på bestämningskoefficienten 1 betyder det funktionella sambandet mellan variablerna.
  2. I avsaknad av ett statistiskt samband mellan variabeln som förklaras och faktorerna har statistiken för linjär regression en asymptotisk fördelning , där  är antalet modellfaktorer (se Lagrange-multiplikatortestet ). Vid linjär regression med normalfördelade slumpmässiga fel har statistiken en exakt (för urval av valfri storlek) Fisherfördelning (se F-test ). Information om fördelningen av dessa värden låter dig kontrollera den statistiska signifikansen för regressionsmodellen baserat på värdet av bestämningskoefficienten. I själva verket testar dessa test hypotesen att den sanna bestämningskoefficienten är lika med noll.
  3. Bestämningskoefficienten kan inte vara negativ, denna slutsats kommer från egenskaperna hos bestämningskoefficienten. Den justerade bestämningskoefficienten kan dock mycket väl ha negativa värden.

Brist på R 2 och alternativa indikatorer

Huvudproblemet med den (selektiva) applikationen är att dess värde ökar ( minskar inte ) av att lägga till nya variabler i modellen, även om dessa variabler inte har något att göra med variabeln som förklaras! Därför är jämförelsen av modeller med olika antal faktorer med användning av bestämningskoefficienten generellt sett felaktig. För dessa ändamål kan alternativa indikatorer användas.

Justerad R 2

För att kunna jämföra modeller med ett annat antal faktorer så att antalet regressorer (faktorer) inte påverkar statistiken , används vanligtvis en justerad bestämningskoefficient , som använder opartiska skattningar av varianser:

vilket ger ett straff för ytterligare ingående faktorer, där n  är antalet observationer och k är antalet parametrar.

Denna indikator är alltid mindre än en, men teoretiskt sett kan den vara mindre än noll (endast med ett mycket litet värde av den vanliga bestämningskoefficienten och ett stort antal faktorer). Därför går tolkningen av indikatorn som en "aktie" förlorad. Ändå är användningen av indikatorn i jämförelse ganska motiverad.

För modeller med samma beroende variabel och samma urvalsstorlek är en jämförelse av modeller med den justerade bestämningskoefficienten ekvivalent med att jämföra dem med modellens kvarvarande varians eller standardfel . Den enda skillnaden är att ju lägre de sista kriterierna är, desto bättre.

Informationskriterier

AIC  – Akaike information criterium  – används uteslutande för att jämföra modeller. Ju lägre värde, desto bättre. Används ofta för att jämföra tidsseriemodeller med olika mängd fördröjningar. , där k är antalet modellparametrar. BIC eller SC  - Bayesian Schwartz Information Criteria - används och tolkas på samma sätt som AIC. . Ger ett större straff för att ta med extra lags i modellen än AIC.


R 2 -generaliserad (utökad)

I frånvaro av en konstant i den linjära multipla LSM- regressionen kan egenskaperna för bestämningskoefficienten kränkas för en viss implementering . Därför kan regressionsmodeller med och utan fri term inte jämföras med kriteriet . Detta problem löses genom att konstruera en generaliserad bestämningskoefficient , som är densamma som den initiala för fallet med LSM-regression med en skärning, och för vilken de fyra egenskaperna som anges ovan är uppfyllda. Kärnan i denna metod är att betrakta projektionen av en enhetsvektor på planet för förklarande variabler.

För fallet med regression utan en fri term: , där X är en matris av nxk faktorvärden,  är en projektion på X-planet, , där  är en enhetsvektor nx1.

med villkoret lätt modifiering , är också lämplig för att jämföra regressioner byggda med: LSM, generaliserade minsta kvadrater (GMLS), villkorade minsta kvadrater (GMLS), generaliserade villkorade minsta kvadrater (GMLS).

Historik

Grunden för bestämningskoefficienten är regressionsanalys och korrelationskoefficient . Den brittiske naturforskaren Sir Francis Galton (1822–1911) grundade regressionsanalys på 1870-talet. Han, liksom sin kusin Charles Darwin , var sonson till Erasmus Darwin . Galton var känd för sin intensiva passion för att samla in data av alla slag. Till exempel samlade han in data om chin sweet pea frön . Genom att jämföra frödiametrar konstruerade han vad som idag är allmänt känt som ett korrelationsdiagram. Sambandet han upptäckte i denna aktivitet, kallade han först "reversion" (omvändning); dock valde han senare namnet "regression". Genom att analysera frön upptäckte han fenomenet regression mot centrum, enligt vilket - efter en mycket olycklig förändring, närmar sig den efterföljande förändringen igen genomsnittet: medeldiametern för avkomman av större frön var mindre än medeldiametern för föräldrarnas frön (förändringar utvecklas). I sina korrelationsdiagram ritade han en trendlinje för vilken han använde korrelationskoefficienten som lutningen. [ett]

Begreppet " spridning " myntades av statistikern Ronald Fisher (1890-1962) i hans papper från 1918 med titeln " The Correlation between Relatives on the supposition of Mendelian Inheritance " [2] . Fisher var en av 1900-talets mest framstående statistiker och är känd för sina bidrag till evolutionsteorin. F-testet , nära besläktat med bestämningskoefficienten, är också uppkallat efter honom. Karl Pearson (1857-1936), grundaren av biometri , gav en formell matematisk motivering för korrelationskoefficienten, vars kvadrat är bestämningskoefficienten. [3]

Bestämningskoefficienten har kritiserats hårt under de följande åren. Detta hände eftersom det har egenskapen att ju fler oberoende variabler desto större blir det. Och detta är oberoende av om ytterligare "förklaringsvariabler" bidrar till "förklaringskraft". För att ta hänsyn till detta föreslog  ekonometrikern Henri Theil (1924–2000) 1961 en Justerad bestämningskoefficient [4] , som tar hänsyn till förlusten av frihetsgrader som är förknippad med en ökning av antalet förklaringsvariabler. Den justerade bestämningskoefficienten ändras på grund av den påföljd som åläggs modellen när antalet variabler ökar. Den tyske vetenskapsmannen Horst Rinne kritiserade dock detta tillvägagångssätt [5] för att inte straffa tillräckligt för förlusten av frihetsgraden när antalet förklarande variabler ökar.

Notera

Höga värden på bestämningskoefficienten indikerar generellt sett inte närvaron av ett orsakssamband mellan variablerna (liksom i fallet med den vanliga korrelationskoefficienten). Till exempel, om variabeln som förklaras och de faktorer som faktiskt inte är relaterade till den förklarade variabeln har en ökande dynamik, så blir bestämningskoefficienten ganska hög. Därför är modellens logiska och semantiska tillräcklighet av största vikt. Dessutom är det nödvändigt att använda kriterier för en heltäckande analys av modellens kvalitet.

Se även

Anteckningar

  1. Franka Miriam Brückler: Geschichte der Mathematik kompakt: Das Wichtigste aus Analysis, Wahrscheinlichkeitstheorie, angewandter Mathematik, Topologie und Mengenlehre. Springer-Verlag, 2017, ISBN 978-3-662-55573-6 , S. 116.  (tyska)
  2. Ronald Aylmer Fisher: Korrelationen mellan släktingar på antagandet om mendelskt arv. I: Trans. Roy. soc. Edinb. 52, 1918, S. 399-433. (Engelsk)
  3. Franka Miriam Brückler: Geschichte der Mathematik kompakt: Das Wichtigste aus Analysis, Wahrscheinlichkeitstheorie, angewandter Mathematik, Topologie und Mengenlehre. Springer-Verlag, 2017, ISBN 978-3-662-55573-6 , S. 117.  (tyska)
  4. ^ Henri Theil: Ekonomiska prognoser och politik. Amsterdam 1961, S. 213  .
  5. Horst Rinne: Ökonometrie: Grundlagen der Makroökonometrie. Vahlen, 2004.  (tyska)

Litteratur

Länkar