Generaliserade minsta kvadrater ( GLS , GLS ) är en metod för att uppskatta parametrarna för regressionsmodeller , vilket är en generalisering av den klassiska minsta kvadratmetoden . Den generaliserade minsta kvadratmetoden reducerar till att minimera den "generaliserade summan av kvadrater" av regressionsresterna - , där är vektorn av residualer, är en symmetrisk positiv bestämd viktmatris. Den vanliga minsta kvadratmetoden är ett specialfall av den generaliserade, när viktmatrisen är proportionell mot identiteten.
Det bör noteras att ett specialfall brukar kallas den generaliserade minsta kvadratmetoden, när matrisen som är inversen av kovariansmatrisen av modellens slumpmässiga fel används som viktmatris.
Det är känt att en symmetrisk positiv bestämd matris kan dekomponeras som , där P är någon icke degenererad kvadratisk matris. Sedan kan den generaliserade summan av kvadrater representeras som summan av kvadrater av de transformerade (med P) residualerna . För linjär regression betyder detta att värdet är minimerat:
där , det vill säga, i själva verket är essensen av de generaliserade minsta kvadraterna reduceras till en linjär transformation av data och tillämpningen av de vanliga minsta kvadraterna på dessa data . Om den inversa kovariansmatrisen för slumpmässiga fel (dvs. ) används som viktmatrisen , gör transformationen P att den transformerade modellen uppfyller de klassiska (Gauss-Markov) antagandena, därför kommer parameteruppskattningarna som använder de vanliga minsta kvadraterna att vara de mest effektiv i klassen linjära opartiska skattare. Och eftersom parametrarna för de ursprungliga och transformerade modellerna är desamma, innebär detta påståendet att GLSM-uppskattningarna är de mest effektiva i klassen av linjära opartiska uppskattningar (Aitkens teorem). Den generaliserade minsta kvadratformeln har formen:
Kovariansmatrisen för dessa uppskattningar är:
Problemet med att använda generaliserade minsta kvadrater är att kovariansmatrisen för slumpmässiga fel är okänd. Därför används i praktiken en tillgänglig variant av GLS, när någon uppskattning av den används istället för V. Men i det här fallet uppstår också ett problem: antalet oberoende element i kovariansmatrisen är , var är antalet observationer (till exempel med 100 observationer måste 5050 parametrar uppskattas!). Därför kommer detta alternativ inte att tillåta kvalitativa uppskattningar av parametrarna. I praktiken görs ytterligare antaganden om strukturen av kovariansmatrisen, det vill säga det antas att elementen i kovariansmatrisen beror på ett litet antal okända parametrar . Deras antal bör vara mycket mindre än antalet observationer. Först tillämpas den vanliga minsta kvadratmetoden, residualerna erhålls, sedan uppskattas de angivna parametrarna baserat på dem . Med hjälp av de erhållna uppskattningarna uppskattas felkovariansmatrisen och de generaliserade minsta kvadraterna med denna matris tillämpas. Detta är kärnan i ett tillgängligt GMS. Det är bevisat att, under vissa ganska allmänna förhållanden, om uppskattningarna är konsekventa, kommer uppskattningarna av den tillgängliga CLSM också att vara konsekventa.
Om felkovariansmatrisen är diagonal (det finns felheteroscedasticitet men ingen autokorrelation), så är den generaliserade summan av kvadrater faktiskt en viktad summa av kvadrater, där vikterna är omvänt proportionella mot felvarianserna. I det här fallet talar man om en viktad minsta kvadrat (WLS, Weighted LS). Transformationen P i detta fall består i att dividera data med standardavvikelsen för slumpmässiga fel. Den vanliga minsta kvadratmetoden tillämpas på data viktad på detta sätt.
Som i det allmänna fallet är felavvikelserna okända och måste uppskattas från samma data. Därför görs några förenklade antaganden om strukturen för heteroskedasticitet.
I det här fallet är de faktiska diagonala elementen kvantiteter som är proportionella mot denna variabel (låt oss beteckna den Z ) . Dessutom behövs inte proportionalitetskoefficienten för utvärdering. Därför är proceduren i detta fall faktiskt följande: dividera alla variabler med Z (inklusive konstanten, det vill säga en ny variabel 1/Z kommer att dyka upp ). Dessutom kan Z vara en av variablerna i själva originalmodellen (i detta fall kommer den transformerade modellen att ha en konstant). Den normala minsta kvadratmetoden tillämpas på de transformerade data för att erhålla parameteruppskattningar:
Låt det finnas n observationer uppdelade i m homogena grupper, inom var och en av vilka samma varians antas. I det här fallet utvärderas modellen först av konventionella minsta kvadrater och residualer hittas. För residualerna inom varje grupp uppskattas gruppfelvarianserna som förhållandet mellan summan av kvadraterna av residualerna och antalet observationer i gruppen. Vidare delas data för varje j:te grupp av observationer med och den vanliga LSM appliceras på data som transformeras på detta sätt för att uppskatta parametrarna.
Om slumpmässiga fel följer AR(1)-modellen , utan att ta hänsyn till den första observationen, kommer transformationen P att vara som följer: de tidigare värdena multiplicerade med: subtraheras från det aktuella värdet av variablerna :
Denna transformation kallas autoregressiv transformation . För den första observationen tillämpas Price-Winsten-korrigeringen - data från den första observationen multipliceras med . Det slumpmässiga felet för den transformerade modellen är , vilket antas vara vitt brus. Därför kommer användningen av konventionella minsta kvadrater att tillåta oss att få kvalitativa uppskattningar av en sådan modell.
Eftersom autoregressionskoefficienten är okänd, tillämpas olika procedurer för tillgänglig GLS.
Steg 1. Utvärdera den ursprungliga modellen med hjälp av minsta kvadratmetoden och få fram resten av modellen.
Steg 2. Uppskattning av autokorrelationskoefficienten för modellens residualer (formellt kan den också erhållas som en OLS-uppskattning av autoregressionsparametern i hjälpregressionen av residualer )
Steg 3. Autoregressiv transformation av data (med användning av autokorrelationskoefficienten uppskattad i det andra steget) och uppskattning av parametrarna för den transformerade modellen med konventionella minsta kvadrater.
Parameteruppskattningarna för den transformerade modellen och är parameteruppskattningarna för den ursprungliga modellen, förutom konstanten, som återställs genom att dividera konstanten för den transformerade modellen med 1-r . Proceduren kan upprepas från det andra steget tills den erforderliga noggrannheten uppnås.
I denna procedur görs en direkt sökning efter värdet på autokorrelationskoefficienten som minimerar summan av kvadrater av residualerna i den transformerade modellen. Värdena för r ställs nämligen in från det möjliga intervallet (-1; 1) med något steg. För var och en av dem utförs en autoregressiv transformation, modellen utvärderas med de vanliga minsta kvadraterna och summan av kvadraterna av residualerna hittas. Autokorrelationskoefficienten väljs för vilken denna summa av kvadrater är minimal. Vidare, i närheten av den hittade punkten, konstrueras ett rutnät med ett finare steg och proceduren upprepas igen.
Den transformerade modellen ser ut så här:
Vi får utvidga parenteserna och flytta den fördröjningsberoende variabeln åt höger
Låt oss introducera notationen . Då har vi följande modell
Denna modell måste uppskattas med den vanliga minsta kvadratmetoden. Sedan återställs koefficienterna för den ursprungliga modellen som .
I detta fall kan den erhållna uppskattningen av autokorrelationskoefficienten användas för autoregressiv transformation och applicering av minsta kvadrater för denna transformerade modell för att erhålla mer exakta parameteruppskattningar.
Minsta kvadrater och regressionsanalys | |||||||||
---|---|---|---|---|---|---|---|---|---|
Beräkningsstatistik _ |
| ||||||||
Korrelation och beroende |
| ||||||||
Regressionsanalys |
| ||||||||
Regression som statistisk modell |
| ||||||||
Variansupplösning |
| ||||||||
Modellstudie |
| ||||||||
Förutsättningar |
| ||||||||
Experimentplanering _ |
| ||||||||
Numerisk uppskattning | |||||||||
Ansökningar |
|