Minst hela kvadrater

Inom tillämpad statistik är minsta kvadratmetoden (TLS, TLS - engelska Total Least Squares ) en typ av regression med fel i variabler , en datamodelleringsteknik som använder metoden minsta kvadrater , som tar hänsyn till fel i både beroende och och i oberoende variabler. Metoden är en generalisering av Deming-regression och ortogonal regression och kan appliceras på både linjära och icke-linjära modeller.

Approximation av data med metoden med minsta fulla kvadrater i allmänna termer är ekvivalent med den bästa i Frobenius -normens lågrangsapproximation av datamatrisen [1] .

Linjär modell

Grunderna

I minsta kvadraters datamodellering är förlustfunktionen S minimerad ,

S=\mathbf {r^{T}Wr} ,

där r är avvikelsevektorn och W är viktmatrisen . I den linjära minsta kvadratmetoden innehåller modellen ekvationer som är linjära i parametrarna i vektorn , så att avvikelserna beräknas med formeln ${\boldsymbol {\beta ))$

\mathbf {r=yX{\boldsymbol {\beta }}} .

Det finns m observationer i vektor y och n parametrar i β för m > n . X är en m × n matris vars element är antingen konstanter eller funktioner av oberoende variabler x . Viktmatrisen W är idealiskt inversen av observationsvarians -kovariansmatrisen y . Det antas att de oberoende variablerna inte har fel. Uppskattningsparametrarna hittas genom att ställa gradienten till noll, vilket leder till ekvationen [not 1] ${\displaystyle \mathbf {M} _{y))$

\mathbf {X^{T}WX{\boldsymbol {\beta }}=X^{T}Wy}

Möjlighet till observationsfel för alla variabler

Låt oss nu anta att både x och y observeras med fel med varians-kovariansmatriser resp . I detta fall skrivs förlustfunktionen som ${\displaystyle \mathbf {M} _{x))$ ${\displaystyle \mathbf {M} _{y))$

S=\mathbf {r_{x}^{T}M_{x}^{-1}r_{x}+r_{y}^{T}M_{y}^{-1}r_{y }}

där och är avvikelser för x respektive y . Det är klart att dessa avvikelser inte kan vara oberoende och det måste finnas något samband mellan dem. Om vi skriver funktionen som , uttrycks begränsningarna av m villkor [2] . $\mathbf {r} _{x}$ ${\displaystyle \mathbf {r} _{y))$ $\mathbf {f(r_{x},r_{y},{\boldsymbol {\beta )))}$

\mathbf {F=\Delta y-{\frac {\partial f}{\partial r_{x))}r_{x}-{\frac {\partial f}{\partial r_{y)) }r_{y}-X\Delta {\boldsymbol {\beta }}=0}

Således reduceras problemet till att minimera förlustfunktionen under m begränsningar. Problemet löses med Lagrange-multiplikatorer . Efter några algebraiska transformationer [3] får vi

\mathbf {X^{T}M^{-1}X\Delta {\boldsymbol {\beta }}=X^{T}M^{-1}\Delta y} ,

eller alternativt, $\mathbf {X^{T}M^{-1}X{\boldsymbol {\beta }}=X^{T}M^{-1}y}$

Här är M varians-kovariansmatrisen relaterad till både oberoende och beroende variabler.

\mathbf {M=K_{x}M_{x}K_{x}^{T}+K_{y}M_{y}K_{y}^{T};\ K_{x}=-{ \frac {\partial f}{\partial r_{x}}},\ K_{y}=-{\frac {\partial f}{\partial r_{y))))

Exempel

I det fall då datafel inte är korrelerade är alla matriser M och W diagonala. Sedan använder vi konstruktionen av en rät linje för punkter.

f(x_{i},\beta )=\alpha +\beta x_{i}\!

Och i det här fallet

{\displaystyle M_{ii}=\sigma _{y,i}^{2}+\beta ^{2}\sigma _{x,i}^{2))

som visar hur variansen vid ith- punkten bestäms av variansen av de oberoende och beroende variablerna, samt modellen som används för att stämma av data. Uttrycket kan generaliseras genom att notera att parametern är linjens lutning. $\beta$

M_{ii}=\sigma _{y,i}^{2}+\left({\frac {dy}{dx))\right)_{i}^{2}\sigma _{x ,i}^{2}

Ett uttryck av detta slag används för att approximera pH titreringsdata när små fel i x ger stora fel i y vid en stor lutning.

Ur en algebraisk synvinkel

Först och främst bör det noteras att MRPK-problemet i det allmänna fallet inte har någon lösning, vilket visades redan 1980 [4] . Tänk på ett enkelt fall där en unik lösning finns utan några antaganden.

Beräkningen av MNPC med singularvärdesuppdelning beskrivs i standardtexter [5] . Vi kan lösa ekvationen

XB\approx Y

med avseende på B , där X är en m -by- n -matris och Y är en m -by- k -matris [not 2]

Det vill säga, vi försöker hitta en matris B som minimerar felmatriserna R och F för X respektive Y . Det är

\mathrm {argmin} _{R,F}\|[R\;F]\|_{F},\qquad (X+R)B=Y+F

där är en förstärkt matris med R och F sida vid sida och är normen för matrisen , kvadratroten ur summan av kvadraterna av alla matriselement, vilket är ekvivalent med kvadratroten ur summan av kvadraterna av längderna av raderna eller kolumnerna i matrisen. $[R\;F]$ ${\displaystyle \|\cdot \|_{F))$

Detta kan skrivas om som

[(X+R)\;(Y+F)]{\begin{bmatrix}B\\-E_{k}\end{bmatrix}}=0.

Var finns identitetsmatrisen. Målet är att hitta en matris som minskar rangen med k . Definiera som singularvärdesuppdelningen av den utökade matrisen . $E_k$ $k\times k$ $[R\;F]$ $[X\;Y]$ $[U][\Sigma ][V]*$ $[X\;Y]$

[X\;Y]=[U_{X}\;U_{Y}]{\begin{bmatrix}\Sigma _{X}&0\\0&\Sigma _{Y}\end{bmatrix)) {\begin{bmatrix}V_{XX}&V_{XY}\\V_{YX}&V_{YY}\end{bmatrix}}^{*}=[U_{X}\;U_{Y}]{\begin {bmatrix}\Sigma _{X}&0\\0&\Sigma _{Y}\end{bmatrix}}{\begin{bmatrix}V_{XX}^{*}&V_{YX}^{*}\\V_ {XY}^{*}&V_{YY}^{*}\end{bmatrix}}

där V är uppdelat i block som motsvarar formerna på matriserna X och Y .

Med Eckart-Yang-satsen är en approximation som minimerar felfrekvensen en sådan approximation att matriserna och inte ändras, medan de minsta singularvärdena ersätts med nollor. Det vill säga vi vill $U$ $V$ $k$

[(X+R)\;(Y+F)]=[U_{X}\;U_{Y}]{\begin{bmatrix}\Sigma _{X}&0\\0&0_{k\ gånger k}\end{bmatrix}}{\begin{bmatrix}V_{XX}&V_{XY}\\V_{YX}&V_{YY}\end{bmatrix}}^{*}

så, på grund av linjäritet,

[R\;F]=-[U_{X}\;U_{Y}]{\begin{bmatrix}0_{n\times n}&0\\0&\Sigma _{Y}\end{bmatrix }}{\begin{bmatrix}V_{XX}&V_{XY}\\V_{YX}&V_{YY}\end{bmatrix}}^{*}.

Vi kan ta bort block från matriserna U och Σ genom att förenkla uttrycket till

[R\;F]=-U_{Y}\Sigma _{Y}{\begin{bmatrix}V_{XY}\\V_{YY}\end{bmatrix}}^{*}=-[ X\;Y]{\begin{bmatrix}V_{XY}\\V_{YY}\end{bmatrix}}{\begin{bmatrix}V_{XY}\\V_{YY}\end{bmatrix}}^ {*}.

Detta ger R och F , alltså

[(X+R)\;(Y+F)]{\begin{bmatrix}V_{XY}\\V_{YY}\end{bmatrix}}=0.

Nu, om inte degenerera, vilket inte alltid är sant (observera att beteendet hos PBMC i fallet med degeneration inte är helt klart), kan vi höger multiplicera båda sidor med för att få det nedre blocket av den högra matrisen till den negativa identiteten matris, vilket ger [6] $V_{YY}$ $V_{YY}$ ${\displaystyle -V_{YY}^{-1))$

[(X+R)\;(Y+F)]{\begin{bmatrix}-V_{XY}V_{YY}^{-1}\\-V_{YY}V_{YY}^{ -1}\end{bmatrix}}=[(X+R)\;(Y+F)]{\begin{bmatrix}B\\-E_{k}\end{bmatrix}}=0,

och då

B=-V_{XY}V_{YY}^{-1}.

Implementering i GNU Octave- systemet :

funktion B = tls ( X,Y ) [ mn ] = storlek ( X ) ; % n är bredden på matris X (X[mxn]) Z = [ XY ] ; %Z är förlängningen av X med Y. [ USV ] = svd ( Z , 0 ) ; _ % finner vi [[Singular value decomposition|SVD]] av matris Z. VXY = V ( 1 : n , 1 + n : slut ); % Vi tar ett block av matris V, bestående av de första n raderna och n + 1 sista kolumner VYY = V ( 1 + n : slut , 1 + n : slut ); % Ta det nedre högra blocket av matris V. B = -VXY / VYY ; _ slutet

Metoden för att lösa det ovan beskrivna problemet, som kräver att matrisen inte är degenererad, kan utökas något med den så kallade klassiska PBM-algoritmen [7] . $V_{YY}$

Beräkning

En standardimplementering av den klassiska PBMC-algoritmen finns tillgänglig på Netlib , se även artiklar [8] [9] . Alla moderna implementeringar, baserade till exempel på användningen av den vanliga minsta kvadratmetoden, approximerar matrisen (som i litteraturen betecknas som ), som Van Houffel och Vandewalle gör. Det är dock värt att notera att den resulterande matrisen i många fall inte är en lösning av PBMC [10] . $B$ $X$ $B$

Icke-linjär modell

För icke-linjära system visar liknande resonemang att normalekvationen för en iterativ cykel kan skrivas om som

\mathbf {J^{T}M^{-1}J\Delta {\boldsymbol {\beta }}=J^{T}M^{-1}\Delta y} .

Geometrisk tolkning

Om de oberoende variablerna inte har några fel representerar avvikelserna det "vertikala" avståndet mellan datapunkten och anpassningskurvan (eller ytan). I minst fulla kvadrater representerar avvikelserna avståndet mellan datapunkten och anpassningskurvan, mätt i någon riktning. Faktum är att om båda variablerna mäts i samma enheter och felen för båda variablerna är desamma, representerar avvikelsen det kortaste avståndet från datapunkten till kurvanpassningen , dvs. avvikelsevektorn är vinkelrät mot tangenten till kurvan . Av denna anledning kallas denna typ av regression ibland bivariat euklidisk regression [11] eller ortogonal regression .

Skalinvarianta metoder

En allvarlig svårighet uppstår om variablerna inte mäts i samma enheter. Låt oss först titta på att mäta avståndet mellan datapunkterna och kurvan - vad skulle enheten för avståndet vara? Om vi mäter avstånd utifrån Pythagoras sats är det klart att vi måste lägga till enheter mätta i olika enheter, vilket leder till meningslösa resultat. Om vi ändrar skalan på en av variablerna, till exempel mäter vi i gram snarare än kilogram, får vi andra resultat (en annan kurva). För att undvika detta problem med inkommensurabilitet föreslås det ibland att konvertera dem till dimensionslösa storheter - detta kan kallas normalisering eller standardisering. Det finns dock olika sätt att göra detta, vilket leder till icke-likvärdiga modeller. Ett tillvägagångssätt är att normalisera med en känd (eller uppskattad) mätnoggrannhet, och därigenom minimera Mahalanobis-avståndet till punkter på linjen och ge en maximal sannolikhetslösning . Okänd mätnoggrannhet kan hittas med hjälp av variansanalys .

Kortfattat har metoden med minsta hela kvadrater inte egenskapen invarians med avseende på måttenheter, dvs. den är inte skalinvariant . För användbarheten av modellen kräver vi att denna egenskap är uppfylld. Ett ytterligare framsteg är förståelsen att avvikelser (avstånd) uppmätta i andra enheter kan kombineras om multiplikation används snarare än addition. Betrakta en approximation av en rak linje, för varje datapunkt är produkten av de horisontella och vertikala avvikelserna lika med två gånger arean av triangeln som bildas av avvikelsesegmenten och den passande räta linjen. Vi väljer den räta linjen som minimerar summan av dessa områden. Nobelpristagaren Paul Samuelson bevisade 1942 att i det tvådimensionella fallet uttrycks denna räta linje enbart i termer av förhållanden mellan standardavvikelser och koefficientkorrelationer, som (1) uppfyller ekvationen om observationerna är på en rät linje; (2) visa skalinvarians, (3) visa invarians vid utbyte av variabler [12] . Denna linje har återupptäckts inom olika discipliner och är känd som den standardiserade huvudaxeln [13] [14] , reducerad huvudaxel, funktionella geometriska medel [15] , minsta kvadraters regression, diagonal regression och linjen med minsta områden. Tofallis [16] utökade detta tillvägagångssätt till att arbeta med flera variabler.

Se även

Anteckningar

↑ Alternativ form - , där är parameterförskjutningen från den initiala uppskattningen och är skillnaden mellan y och värdet beräknat från den initiala uppskattningen $\mathbf {X^{T}WX{\boldsymbol {\Delta }}{\boldsymbol {\beta }}=X^{T}W{\boldsymbol {\Delta }}y}$ ${\boldsymbol {\Delta }}{\boldsymbol {\beta }}$ ${\boldsymbol {\beta ))$ ${\boldsymbol {\Delta ))\mathbf {y}$ ${\boldsymbol {\beta ))$
↑ Uttrycket XB ≈ Y används här för att spegla tidigare uttryck. I litteraturen används uttrycket AX ≈ B oftare , d.v.s. med bokstaven X för att representera matrisen n - x - k för okända regressionskoefficienter.

↑ Markovsky och Van Huffel, 2007 , sid. 2283-2302, 2007.
↑ Deming, 1943 .
↑ Gans, 1992 .
↑ Golub, Van Loan, 1980 , sid. 883–893.
↑ Golub, Van Loan, 1996 , sid. 596.
↑ Bjõrck, 1996 .
↑ Van Huffel, Vandewalle, 1991 .
↑ Van Huffel, 1988 .
↑ Van Huffel, 1989 , sid. 111–119.
↑ Plesinger, 2008 , sid. 748–770.
↑ Stein .
↑ Samuelson, 1942 , sid. 80–83.
↑ Ricker, 1975 , sid. 1494–1498
↑ Warton, Wright, Falster, Westoby, 2006 , sid. 259–291.
↑ Draper, Smith, 1998 , sid. 92–96.
↑ Tofallis, 2002 .

Litteratur

Van Huffel S., Vandewalle J. Problemen med totalt minsta kvadrater: beräkningsaspekter och analys. - Philadelphia PA: SIAM Publications, 1991. - V. 9. - (Frontiers i tillämpad matematik). — ISBN 0-89871-271-0 .
Golub GH, Van Loan CF En analys av det totala minsta kvadratproblemet // SIAM J. on Numer. Anal.. - 1980. - T. 17 . - S. 883-893 .

Gene H. Golub, Charles F. Van Loan. Matrisberäkningar. — 3:a. — Johns Hopkins University Press , 1996.
Åke Bjõrck. Numeriska metoder för problem med minsta kvadrater. - SIAM (Society for Industrial and Applied Mathematics), 1996. - ISBN 978-0898713602 .
Van Huffel S. Dokumenterade Fortran 77-program för den utökade klassiska totala minsta kvadratalgoritmen, den partiella singularvärdesdekompositionsalgoritmen och den partiella totala minsta kvadratalgoritmen, Intern rapport ESAT-KUL 88/1 ESAT Lab., Dept. av elektroteknik,. — Katholieke Universiteit Leuven, 1988.
Van Huffel S. Den utökade klassiska totala minsta kvadratalgoritmen // J. Comput. Appl. Matematik.,. - 1989. - S. 111-119, .
Plesinger M. Problemet med totalt minsta kvadrater och reduktion av data i AX ≈ B. Doktorsavhandling . - TU i Liberec och Institutet för datavetenskap, AS CR Prag, 2008. - (Ph.D.-avhandling). Arkiverad 24 juli 2012 på Wayback Machine
Hnětynková I., Plešinger M., Sima DM, Strakoš Z., Van Huffel S. [1] . - Det totala minsta kvadratproblemet i AX ≈ B. En ny klassificering med relationen till de klassiska verken.: SIMAX, 2011. - V. 32. - S. 748-770.
Yaakov J. Stein. Tvådimensionell euklidisk regression .
Paul A. Samuelson. En anteckning om alternativa regressioner // Econometrica. - The Econometric Society, 1942. - V. 10 , nr. 1 . - S. 80-83 . - doi : 10.2307/1907024 . — .
Ricker WE En anteckning angående professor Jolicoeurs kommentarer // Journal of the Fisheries Research Board of Canada. - 1975. - T. 32 . - S. 1494-1498 . - doi : 10.1139/f75-172 .
David I. Warton, Ian J. Wright, Daniel S. Falster, Mark Westoby. Bivariat linjeanpassningsmetoder för allometri // Biologiska recensioner. - Wiley, 2006. - T. 81 , nej. 2 . - S. 259-291 . - doi : 10.1017/S1464793106007007 .
Draper NR, Smith H. Applied Regression Analysis. — 3:e upplagan. - 1998. - S. 92-96. - (Wiley-serien i sannolikhet och statistik). — ISBN 0-471-17982-8 .
Chris Tofallis. Modellanpassning för flera variabler genom att minimera den geometriska medelavvikelsen // Totalt antal minsta kvadrater och fel-i-variabler modellering: analys, algoritmer och tillämpningar / Sabine Van Huffel, P. Lemmerling. - Dordrecht [ua]: Kluwer Academic Publ., 2002. - ISBN 978-1402004766 .
Markovsky I., Van Huffel S. Översikt över totala minsta kvadratmetoder // Signal Processing. - 2007. - T. 87 .
W.E. Deming. Statistisk justering av data. — New York: John Wiley & Sons, 1943.
Peter Gans. Dataanpassning inom kemivetenskapen . - Wiley, 1992. - ISBN 9780471934127 .

Ytterligare läsning

Paige CC, Strakoš Z.,. Kärnproblem i linjära algebraiska system // SIAM J. Matrix Anal. Appl. - 2006. - T. 27 . - S. 861-875 .
Jo S., Kim SW Konsekvent normaliserad minsta medelkvadratfiltrering med brusig datamatris. - 2005. - T. 53. - S. 2112-2123. - (IEEE Trans. Signal Processing).
DeGroat RD, Dowling EM Dataminsta kvadratproblem och kanalutjämning. - 1993. - T. 41. - S. 407-411. - (IEEE Trans. Signal Processing).
Abatzoglou T., Mendel J. Begränsad totalt minsta kvadrater. - 1987. - T. 12. - S. 1485-1488. — (Proc. IEEE Int. Conf. Acoust., Speech, Signal Process. (ICASSP'87)).
de Groen P. arxiv.org En introduktion till totalt minsta kvadrater . - 1996. - S. 237-253. — (Nieuw Archief voor Wiskunde, Vierde serie, deel 14).
Vinkelrät regression av en linje på MathPages
Amiri-Simkooei AR, Jazaeri S. Viktad total minsta kvadrater formulerad av standard teori för minsta kvadrater // Journal of Geodetic Science. - 2012. - Vol 2 (2) . - S. 113-124 .

Minsta kvadrater och regressionsanalys

Beräkningsstatistik _

Minsta kvadratiska metod
Linjär MNC
Icke-linjära minsta kvadrater
LSM med iterativ omräkning av vikter

Korrelation
och beroende

Pearson korrelationskoefficient
Rank korrelation ( Spearman
Kendall )
Partiell korrelation
Snedvridande faktor

Regressionsanalys

Vanlig MNC
Partiell minsta kvadratmetod
Minst hela kvadrater
Ridge regression

Regression som
statistisk
modell

Linjär regression	Enkel linjär regression Vanlig MNC Generaliserade minsta kvadrater Viktade minsta rutor Grundläggande linjär modell
prediktiv ram	Polynomregression tillväxtkurva Segmenterad regression Lokal regression
Anpassad regression	icke-linjär Icke-parametrisk semi-parametrisk hållbar kvantil isotoniska
Icke -standardfel	Generaliserad linjär modell Binomial regression Poisson-regression Logistisk tillbakagång

Variansupplösning

Variansanalys
Kovariansanalys
Multivariat variansanalys

Modellstudie

C p Malva
Stegvis regression
Att välja en statistisk modell
Validering av regressionsmodell

Förutsättningar

Genomsnittlig och förväntad respons
Gauss-Markovs teorem
Fel och avvikelser
Statistiskt test
Studentiserad balans
Minsta medelkvadratfel

Experimentplanering
_

Responsytmetodik
Optimal experimentdesign
Bayesiansk experimentdesign

Numerisk
uppskattning

Ansökningar

Approximation med hjälp av kurvor
Kalibreringskurva
Savitsky-Golay filter
Systemidentifiering
Metod för att flytta minsta kvadrater