Icke-linjär regression

Icke-linjär regression  är en typ av regressionsanalys där experimentella data modelleras av en funktion som är en icke-linjär kombination av modellparametrar och beror på en eller flera oberoende variabler. Uppgifterna approximeras med metoden för successiva approximationer .

Allmänna bestämmelser

Data består av felfria förklarande variabler x och tillhörande observerade beroende variabler ( svar ) y . Varje variabel y modelleras som en slumpvariabel med ett medelvärde givet av en icke-linjär funktion f ( x ,β). Metodfel kan förekomma, men dess bearbetning ligger utanför gränserna för regressionsanalys. Om förklaringsvariablerna inte är fria från fel, blir modellen en modell med fel i variablerna och är dessutom utanför räckvidden.

Till exempel Michaelis-Menten- modellen för enzymatisk kinetik

kan skrivas som

där  är parametern ,  är parametern och [ S ] är den oberoende variabeln ( x ). Denna funktion är icke-linjär eftersom den inte kan uttryckas som en linjär kombination av och .

Andra exempel på icke-linjära funktioner är exponentialfunktioner , logaritmiska funktioner , trigonometriska funktioner , potensfunktioner , Gaussfunktioner och Lorentzkurvor . Regressionsanalys med funktioner som exponentiell eller log kan ibland reduceras till det linjära fallet och standard linjär regression kan tillämpas, men bör användas med försiktighet. Se avsnittet Linearisering nedan för detaljer.

I det allmänna fallet kanske en representation i sluten form (som i fallet med linjär regression ) inte existerar. Vanligtvis används optimeringsalgoritmer för att bestämma de bästa parameteruppskattningarna . Till skillnad från linjär regression kan det finnas flera lokala minima för den funktion som optimeras, och det globala minimumet kan till och med ge en partisk uppskattning. I praktiken används de uppskattade värdena av parametrarna tillsammans med en optimeringsalgoritm i ett försök att hitta det globala minimumet av kvadratsumman.

Se " Minsta kvadrater " och " Icke -linjära minsta kvadrater för detaljer om icke-linjär modellering .

Regressionsstatistik

Det antagande som ligger bakom denna procedur är att modellen kan approximeras med en linjär funktion.

var . Detta följer av det faktum att minsta kvadraters uppskattning ges av formeln

Den icke-linjära regressionsstatistiken beräknas och används som den linjära regressionsstatistiken, men istället för X i formlerna används J . En linjär passning introducerar en bias i statistiken, så man bör vara mer försiktig med att tolka statistik som härrör från en icke-linjär modell.

Vanliga och viktade minsta kvadrater

Den bästa passande kurvan antas ofta vara den som minimerar summan av kvadratiska residualer . Detta är den (konventionella) minsta kvadraten (OLS) tillvägagångssätt. Men i fallet där den beroende variabeln inte har konstant varians, kan summan av de viktade kvadraterna minimeras . Varje vikt bör helst vara den reciproka av variansen för observationerna, men vikterna kan räknas om i en iterativ viktad minsta kvadratalgoritm vid varje iteration.

Linjärisering

Transformation

Vissa icke-linjära regressionsproblem kan reduceras till linjära genom att på lämpligt sätt transformera modellformuleringen.

Tänk till exempel på det olinjära regressionsproblemet

med parametrarna a och b och med multiplikativ felfaktor U . Om vi ​​tar logaritmen för båda sidor får vi

där u = ln( U ). Från detta kan man få en uppskattning av de okända parametrarna genom linjär regression av ln( y ) på x och beräkningarna kräver ingen iterativ optimering. Användningen av en icke-linjär transformation kräver dock försiktighet. Effekten av datavärden kommer att förändras, mönstret av modellfel och tolkningen av eventuella resultat kommer att förändras, vilket kan leda till oönskade resultat. Å andra sidan, beroende på den största felkällan, kan den icke-linjära transformationen fördela felen som en Gaussfördelning, så modellen måste beaktas när den icke-linjära transformationen tillämpas.

Till exempel, för Michaelis-Menten-ekvationen används den linjära representationen Lineweaver-Burk flitigt

.

Men på grund av dess höga känslighet för datafel, samt på grund av stark bias, rekommenderas detta inte.

För felfördelningar som tillhör familjen av exponentialfördelningar kan en länkfunktion användas för att transformera parametrarna till en generaliserad linjär modell .

Segmentering

Den oberoende variabeln (säg X) kan delas upp i klasser eller segment, och linjär regression segment för segment kan utföras. Segmenterad regression med konfidensanalys kan ge ett resultat där den beroende variabeln eller svaret (säg Y) beter sig olika i olika segment [1] .

Grafen till höger visar att markens salthalt (X) initialt inte har någon effekt på avkastningen (Y) av senap förrän ett kritiskt eller tröskelvärde uppnås, varefter en negativ effekt på avkastningen [2]

Exempel

Titius-Bode-regeln i form av en matematisk formel är en endimensionell icke-linjär regressionsekvation som relaterar ordningsnumren för solsystemets planeter , räknat från solen , med de ungefärliga värdena för den stora halvan -axlar för deras banor . Noggrannheten är ganska tillfredsställande inte för astronomiska ändamål.

Se även

Anteckningar

  1. Oosterbaan, 1994 , sid. 175-224.
  2. ( Oosterbaan 2002 ) Illustration gjord av SegReg

Litteratur

Läsning för vidare läsning