Regressionsanalys

Regressionsanalys är en uppsättning statistiska metoder för att studera inflytandet av en eller flera oberoende variabler på en beroende variabel . Oberoende variabler kallas annars regressorer eller prediktorer, och beroende variabler kallas kriterier eller regressorer. Terminologin för beroende och oberoende variabler återspeglar endast det matematiska beroendet av variabler ( se korrelation ), och inte kausala samband. Den vanligaste typen av regressionsanalys är linjär regression, då en linjär funktion hittas som, enligt vissa matematiska kriterier, bäst matchar data. Till exempel, i metoden för minsta kvadrater, beräknas en rät linje (eller hyperplan), summan av kvadrater mellan vilka och data är minimal.

Mål för regressionsanalys

  1. Bestämning av graden av determinism för variationen av kriteriet (beroende) variabel med prediktorer (oberoende variabler)
  2. Förutsäga värdet på den beroende variabeln med hjälp av den eller de oberoende variablerna
  3. Bestämning av individuella oberoende variablers bidrag till variationen av beroende

Matematisk definition av regression

Strikt regressivt beroende kan definieras enligt följande. Låta vara slumpvariabler med en given gemensam sannolikhetsfördelning. Om för varje uppsättning värden definieras en villkorad förväntan

(allmän regressionsekvation),

då kallas funktionen regression av magnitud för magnituder , och dess graf kallas regressionslinjen för , eller regressionsekvationen .

Beroendet av manifesteras i förändringen av medelvärdena vid ändring . Även om värdet för varje fast uppsättning värden förblir en slumpvariabel med en viss fördelning .

För att klargöra frågan om hur noggrant regressionsanalysen uppskattar förändringen med en förändring , används medelvärdet av variansen för olika uppsättningar värden (i själva verket talar vi om måttet på spridningen av den beroende variabeln runt regressionslinje).

I matrisform skrivs regressionsekvationen (ER) som: , var är felmatrisen. Med en inverterbar matris X◤X erhålls en kolumnvektor med koefficienterna B, med hänsyn tagen till U◤U=min(B). I ett särskilt fall för X=(±1) är X◤X-matrisen roterbar och SD kan användas i tidsserieanalys och teknisk databehandling.

Metod för minsta kvadrater (beräkning av koefficienter)

I praktiken söks regressionslinjen oftast som en linjär funktion ( linjär regression ) som bäst approximerar den önskade kurvan. Detta görs med minsta kvadratmetoden , när summan av de kvadrerade avvikelserna för de faktiskt observerade från deras uppskattningar minimeras (vilket betyder uppskattningar med en rät linje som gör anspråk på att representera det önskade regressionsberoendet):

( är provstorleken). Detta tillvägagångssätt är baserat på det välkända faktumet att summan som visas i uttrycket ovan tar minimivärdet just för fallet när .

För att lösa problemet med regressionsanalys med minsta kvadratmetoden introduceras begreppet restfunktion :

Villkoret för minimum av restfunktionen:

Det resulterande systemet är ett system av linjära ekvationer med okända .

Om vi ​​representerar de fria termerna på vänster sida av ekvationerna med matrisen

och koefficienterna för de okända på höger sida är matrisen

då får vi matrisekvationen: , som enkelt löses med Gaussmetoden . Den resulterande matrisen kommer att vara en matris som innehåller koefficienterna för regressionslinjeekvationen:

För att få de bästa uppskattningarna är det nödvändigt att uppfylla LSM-förutsättningarna (Gauss-Markov-villkoren) . I den engelskspråkiga litteraturen kallas sådana skattningar BLUE ( Best Linear Unbiased Estimators - "the best linear unbiased estimates"). De flesta av de beroenden som studeras kan med hjälp av LSM representeras av icke- linjära matematiska funktioner.

Tolkning av regressionsparametrar

Parametrarna är partiella korrelationskoefficienter; tolkas som andelen av variansen av Y som förklaras genom att fixera påverkan av de återstående prediktorerna, det vill säga den mäter det individuella bidraget till förklaringen av Y. När det gäller korrelerade prediktorer finns det ett problem med osäkerhet i skattningarna , som blir beroende av i vilken ordning prediktorerna ingår i modellen. I sådana fall är det nödvändigt att tillämpa analysmetoderna för korrelation och stegvis regressionsanalys.

På tal om icke-linjära modeller för regressionsanalys, är det viktigt att vara uppmärksam på om vi talar om icke-linjäritet i oberoende variabler (ur en formell synvinkel, lätt reducerad till linjär regression), eller icke-linjäritet i uppskattade parametrar (orsakar allvarliga beräkningssvårigheter). Med den första typens olinjäritet, från en meningsfull synvinkel, är det viktigt att peka ut utseendet i modellen av medlemmar av formen , , vilket indikerar närvaron av interaktioner mellan funktioner , etc. (se Multicollinearity ).

Se även

Litteratur