Metoden för minsta kvadrater (LSM) är en matematisk metod som används för att lösa olika problem, baserad på att minimera summan av kvadrater av avvikelser för vissa funktioner från experimentella indata. Det kan användas för att "lösa" överbestämda ekvationssystem (när antalet ekvationer överstiger antalet okända), för att hitta en lösning i fallet med vanliga (ej överbestämda) olinjära ekvationssystem, för att approximera punktvärdena av en viss funktion. OLS är en av de grundläggande metoderna för regressionsanalys för att uppskatta okända parametrar för regressionsmodeller från provdata.
Fram till början av XIX-talet. vetenskapsmän hade inte vissa regler för att lösa ett ekvationssystem där antalet okända är mindre än antalet ekvationer; Fram till den tiden användes särskilda metoder, beroende på typen av ekvationer och på räknemaskinernas uppfinningsrikedom, och därför kom olika räknare, med utgångspunkt från samma observationsdata, till olika slutsatser. Gauss (1795) är krediterad för den första tillämpningen av metoden, och Legendre (1805) upptäckte och publicerade den självständigt under sitt moderna namn ( franska: Méthode des moindres quarrés ) [1] . Laplace kopplade ihop metoden med sannolikhetsteorin och den amerikanske matematikern Adrain (1808) övervägde dess probabilistiska tillämpningar [2] . Metoden är utbredd och förbättrad genom ytterligare forskning av Encke , Bessel , Hansen m.fl.
A. A. Markovs verk i början av 1900-talet gjorde det möjligt att inkludera minsta kvadratmetoden i teorin om skattning av matematisk statistik, där den är en viktig och naturlig del. Genom ansträngningar av Y. Neiman, F. David, A. Aitken, S. Rao erhölls många viktiga resultat på detta område [3] .
Låt , en uppsättning skalära experimentella data, , en uppsättning vektor experimentella data, och antas bero på .
Någon (i det enklaste fallet, linjär) skalär funktion introduceras , som bestäms av vektorn av okända parametrar .
Uppgiften är att hitta en vektor så att totaliteten av fel i någon mening är minimal.
Enligt minsta kvadratmetoden är lösningen på detta problem vektorn , vilket minimerar funktionen
I det enklaste fallet blir resultatet av de minsta kvadraterna det aritmetiska medelvärdet av indata.
Fördelen med LSM framför att minimera andra typer av fel är att om det är differentierbart med avseende på , så är det också differentierbart. Att likställa partiella derivator till noll minskar problemet med att lösa ett ekvationssystem, och om det beror på linjärt, så kommer ekvationssystemet att vara linjärt.
I synnerhet kan minsta kvadratmetoden användas för att "lösa" systemet med linjära ekvationer
,där är en rektangulär matris av storlek (det vill säga antalet rader av matris A är större än antalet variabler som söks).
Ett sådant ekvationssystem har i allmänhet ingen lösning. Därför kan detta system "lösas" endast i den meningen att man väljer en sådan vektor för att minimera "avståndet" mellan vektorerna och . För att göra detta kan du tillämpa kriteriet för att minimera summan av kvadratskillnader mellan vänster och höger del av systemets ekvationer, det vill säga . Det är lätt att visa att lösningen av detta minimeringsproblem leder till lösningen av följande ekvationssystem
.Med pseudo-inversionsoperatorn kan lösningen skrivas om så här:
,var är pseudoinversmatrisen för .
Detta problem kan också "lösas" med hjälp av de så kallade viktade minsta kvadraterna (se nedan), när olika ekvationer i systemet får olika vikt utifrån teoretiska överväganden.
Strikt motivering och bestämning av gränserna för meningsfull tillämplighet av metoden gavs av A. A. Markov och A. N. Kolmogorov .
Låt det finnas värden för någon variabel (det kan vara resultaten av observationer, experiment, etc.) och motsvarande variabler . Uppgiften är att approximera förhållandet mellan och av någon funktion känd upp till några okända parametrar , det vill säga att hitta de bästa värdena av parametrarna som bringar värdena så nära de faktiska värdena som möjligt . I själva verket reducerar detta till fallet att "lösa" ett överbestämt ekvationssystem med avseende på :
.
I regressionsanalys, och i synnerhet inom ekonometri, används probabilistiska modeller av sambandet mellan variabler.
,
var finns de så kallade slumpmässiga modellfelen.
Följaktligen antas avvikelserna för de observerade värdena från modellvärdena redan i själva modellen. Kärnan i LSM (vanligt, klassiskt) är att hitta sådana parametrar under vilka summan av kvadrerade avvikelser (fel, för regressionsmodeller kallas de ofta regressionsrester ) kommer att vara minimal:
,var är engelska. Restsumma av kvadrater [4] definieras som:
.I det allmänna fallet kan detta problem lösas med numeriska metoder för optimering (minimering). I det här fallet talar de om icke-linjära minsta kvadrater (NLS eller NLLS - engelska Non-Linear Least Squares ). I många fall kan en analytisk lösning erhållas. För att lösa minimeringsproblemet är det nödvändigt att hitta de stationära punkterna för funktionen genom att differentiera den med avseende på okända parametrar , likställa derivatorna till noll och lösa det resulterande ekvationssystemet:
.Låt regressionsberoendet vara linjärt :
.Låt y vara en kolumnvektor av observationer av variabeln som förklaras, och vara en matris av observationer av faktorer (matrisens rader är vektorerna av faktorvärden i en given observation, längs kolumnerna är vektorn av värden av en given faktor i alla observationer). Matrisrepresentationen av den linjära modellen har formen:
.Då kommer uppskattningsvektorn för den förklarade variabeln och vektorn för regressionsresterna att vara lika med
.följaktligen kommer summan av kvadraterna av regressionsresterna att vara lika med
.Genom att differentiera denna funktion med avseende på parametervektorn och likställa derivatorna till noll, får vi ett ekvationssystem (i matrisform):
.I den dechiffrerade matrisformen ser detta ekvationssystem ut så här:
där alla summor tas över alla tillåtna värden på .
Om en konstant ingår i modellen (som vanligt), är därför för alla i det övre vänstra hörnet av matrisen i ekvationssystemet antalet observationer , och i de återstående elementen i den första raden och den första kolumnen - bara summan av variablernas värden: och det första elementet på höger sida av systemet är .
Lösningen av detta ekvationssystem ger den allmänna formeln för minsta kvadratuppskattningar för den linjära modellen:
.För analytiska ändamål visar sig den sista representationen av denna formel vara användbar (i ekvationssystemet, när de divideras med n, visas aritmetiska medel i stället för summor). Om data är centrerad i regressionsmodellen , så har i denna representation den första matrisen betydelsen av sampelkovariansmatrisen av faktorer, och den andra är faktorkovariansvektorn med den beroende variabeln. Om dessutom data också normaliseras till RMS (det vill säga så småningom standardiserad ), så har den första matrisen betydelsen av en provkorrelationsmatris av faktorer, den andra vektorn - vektorer av provkorrelationer av faktorer med en beroende variabel.
En viktig egenskap hos LLS-uppskattningar för modeller med en konstant är att linjen för den konstruerade regressionen passerar genom provdatas tyngdpunkt, det vill säga att likheten är uppfylld:
.I synnerhet, i extremfallet, när den enda regressorn är en konstant, finner vi att OLS-estimatet för en enskild parameter (konstanten i sig) är lika med medelvärdet för variabeln som förklaras. Det vill säga, det aritmetiska medelvärdet, känt för sina goda egenskaper från lagarna för stora tal, är också en minsta kvadratisk uppskattning - det uppfyller kriteriet för den minsta summan av kvadrerade avvikelser från det.
De enklaste specialfallenNär det gäller parad linjär regression , när en variabels linjära beroende av en annan uppskattas, förenklas beräkningsformlerna (du klarar dig utan matrisalgebra). Ekvationssystemet har formen:
.Härifrån är det lätt att hitta uppskattningar för koefficienterna:
Även om konstantmodeller i allmänhet är att föredra, är det i vissa fall känt från teoretiska överväganden att konstanten bör vara noll. Till exempel, inom fysiken har förhållandet mellan spänning och ström formen ; mäta spänning och ström, är det nödvändigt att uppskatta resistansen. I det här fallet talar vi om modellen . I det här fallet, istället för ett ekvationssystem, har vi en enda ekvation
.
Därför har formeln för att uppskatta en enskild koefficient formen
.
Om data approximeras av en polynomregressionsfunktion av en variabel , då, genom att uppfatta graderna som oberoende faktorer för varje , är det möjligt att uppskatta modellparametrarna baserat på den allmänna formeln för att uppskatta de linjära modellparametrarna. För att göra detta, i den allmänna formeln, räcker det att ta hänsyn till att med en sådan tolkning av och . Därför kommer matrisekvationerna i detta fall att ha formen:
Först och främst noterar vi att för linjära modeller är uppskattningarna av minsta kvadrater linjära uppskattningar, enligt ovanstående formel. För opartiska OLS-uppskattningar är det nödvändigt och tillräckligt för att uppfylla det viktigaste villkoret för regressionsanalys : beroende på faktorerna måste den matematiska förväntan av ett slumpmässigt fel vara lika med noll. Detta villkor är uppfyllt, i synnerhet om
Det första villkoret för modeller med en konstant kan anses alltid vara uppfyllt, eftersom konstanten antar en matematisk förväntan om fel som inte är noll (därför är modeller med en konstant i allmänhet att föredra).
Det andra villkoret - tillståndet för exogena faktorer - är grundläggande. Om den här egenskapen inte är uppfylld, kan vi anta att nästan alla uppskattningar kommer att vara extremt otillfredsställande: de kommer inte ens att vara konsekventa (det vill säga även en mycket stor mängd data tillåter inte att erhålla kvalitativa uppskattningar i det här fallet). I det klassiska fallet görs ett starkare antagande om faktorers determinism, till skillnad från ett slumpmässigt fel, vilket automatiskt innebär att det exogena villkoret är uppfyllt. I det allmänna fallet, för att uppskattningarna ska vara konsekventa, är det tillräckligt att uppfylla exogenitetsvillkoret tillsammans med konvergensen av matrisen till någon icke-singulär matris med en ökning av urvalsstorleken till oändlighet.
För att, förutom konsekvens och opartiskhet , uppskattningarna av de (vanliga) minsta kvadraterna också ska vara effektiva (den bästa i klassen av linjära opartiska uppskattningar), måste ytterligare egenskaper för det slumpmässiga felet vara uppfyllda:
Dessa antaganden kan formuleras för kovariansmatrisen för vektorn av slumpmässiga fel .
En linjär modell som uppfyller sådana villkor kallas klassisk . LLS- uppskattningar för klassisk linjär regression är opartiska , konsekventa och mest effektiva uppskattningar i klassen av alla linjära opartiska uppskattningar ). Som det är lätt att visa kommer kovariansmatrisen för koefficientuppskattningsvektorn att vara lika med:
.
Effektivitet betyder att denna kovariansmatris är "minimal" (vilken linjär kombination av koefficientuppskattningar som helst, och i synnerhet koefficientuppskattningarna i sig har en minimivarians), det vill säga i klassen linjära opartiska uppskattningar är OLS-uppskattningarna de bästa . De diagonala elementen i denna matris, varianserna för koefficientuppskattningar, är viktiga parametrar för kvaliteten på de erhållna uppskattningarna. Det är dock inte möjligt att beräkna kovariansmatrisen eftersom den slumpmässiga felvariansen är okänd. Det kan bevisas att den opartiska och konsekventa (för den klassiska linjära modellen) uppskattningen av variansen av slumpmässiga fel är värdet:
.
Genom att ersätta detta värde i formeln för kovariansmatrisen får vi en uppskattning av kovariansmatrisen. De resulterande uppskattningarna är också opartiska och konsekventa . Det är också viktigt att skattningen av felvariansen (och därmed koefficienternas varians) och uppskattningarna av modellparametrarna är oberoende slumpvariabler, vilket gör det möjligt att få teststatistik för att testa hypoteser om modellkoefficienterna.
Det bör noteras att om de klassiska antagandena inte uppfylls, är minsta kvadratparameteruppskattningarna inte de mest effektiva uppskattningarna (förblir opartiska och konsekventa ). Uppskattningen av kovariansmatrisen förvärras dock ännu mer: den blir partisk och inkonsekvent . Detta innebär att statistiska slutsatser om kvaliteten på den konstruerade modellen i detta fall kan vara extremt opålitliga. Ett sätt att lösa detta problem är att använda speciella uppskattningar av kovariansmatrisen som är konsekventa under överträdelser av de klassiska antagandena ( standardfel i White-formen och standardfel i Newey-West-formen ). Ett annat tillvägagångssätt är att tillämpa de så kallade generaliserade minsta kvadraterna .
Metoden med minsta kvadrater möjliggör en bred generalisering. Istället för att minimera summan av kvadraterna av residualerna, kan man minimera någon positiv-definitiv kvadratisk form av restvektorn , där är någon symmetrisk positiv-definitiv viktmatris. Vanliga minsta kvadrater är ett specialfall av detta tillvägagångssätt, när viktmatrisen är proportionell mot identitetsmatrisen. Som bekant finns det en sönderdelning för symmetriska matriser (eller operatorer) . Därför kan den specificerade funktionalen representeras enligt följande: , det vill säga denna funktion kan representeras som summan av kvadraterna av några transformerade "rester". Således kan vi urskilja en klass av minsta kvadratmetoder - LS-metoder (Minsta kvadrater).
Det har bevisats (Aitkens sats) att för en generaliserad linjär regressionsmodell (där inga restriktioner läggs på kovariansmatrisen av slumpmässiga fel) är de mest effektiva (i klassen linjära opartiska skattningar) uppskattningar av s.k. . generaliserade minsta kvadrater (GLS, GLS - Generaliserade minsta kvadrater) - LS-metod med en viktmatris lika med den inversa kovariansmatrisen för slumpmässiga fel: .
Det kan visas att formeln för GLS-uppskattningarna av parametrarna för den linjära modellen har formen
.
Kovariansmatrisen för dessa uppskattningar kommer att vara lika med
.
Faktum är att kärnan i OLS ligger i en viss (linjär) transformation (P) av originaldata och tillämpningen av de vanliga minsta kvadraterna på de transformerade data. Syftet med denna transformation är att för de transformerade data, de slumpmässiga felen redan uppfyller de klassiska antagandena.
I fallet med en diagonalviktsmatris (och därmed en kovariansmatris av slumpmässiga fel) har vi de så kallade viktade minsta kvadraterna. I detta fall minimeras den viktade kvadratsumman av modellens residualer, det vill säga varje observation får en "vikt" som är omvänt proportionell mot variansen av det slumpmässiga felet i denna observation: . Faktum är att data transformeras genom att vikta observationerna (dividering med ett belopp som är proportionellt mot den antagna standardavvikelsen för de slumpmässiga felen), och normala minsta kvadrater tillämpas på de viktade data.
![]() |
|
---|---|
I bibliografiska kataloger |
Minsta kvadrater och regressionsanalys | |||||||||
---|---|---|---|---|---|---|---|---|---|
Beräkningsstatistik _ |
| ||||||||
Korrelation och beroende |
| ||||||||
Regressionsanalys |
| ||||||||
Regression som statistisk modell |
| ||||||||
Variansupplösning |
| ||||||||
Modellstudie |
| ||||||||
Förutsättningar |
| ||||||||
Experimentplanering _ |
| ||||||||
Numerisk uppskattning | |||||||||
Ansökningar |
|