Logistisk tillbakagång

Den aktuella versionen av sidan har ännu inte granskats av erfarna bidragsgivare och kan skilja sig väsentligt från versionen som granskades den 8 februari 2022; verifiering kräver 1 redigering .

Logistisk regression eller logitmodell ( engelsk logitmodell ) är en statistisk modell som används för att förutsäga sannolikheten för att en händelse inträffar genom att jämföra den med en logistisk kurva . Denna regression ger svaret som sannolikheten för en binär händelse (1 eller 0).

Beskrivning

Logistisk regression används för att förutsäga sannolikheten för att en händelse inträffar baserat på värdena för en uppsättning funktioner. För detta introduceras den så kallade beroende variabeln , som bara tar ett av två värden - som regel är dessa siffror 0 (händelsen inträffade inte) och 1 (händelsen inträffade), och en uppsättning av oberoende variabler (även kallade tecken, prediktorer eller regressorer) - verkliga , baserat på de värden som det krävs för att beräkna sannolikheten för att acceptera ett eller annat värde på den beroende variabeln. Som i fallet med linjär regression introduceras en dummyfunktion för att underlätta notationen $y$ $x_{1},x_{2},...,x_{n}$ $x_{0}=1.$

Det antas att sannolikheten för att en händelse inträffar är: $y=1$

{\mathbb {P}}\{y=1\mid x\}=f(z),

där , och är kolumnvektorer av värden för oberoende variabler och parametrar (regressionskoefficienter) - reella tal , respektive, och är den så kallade logistiska funktionen (ibland även kallad sigmoid- eller logit-funktionen): ${\displaystyle z=\theta ^{T}x=\theta _{0}+\theta _{1}x_{1}+\ldots +\theta _{n}x_{n))$ $x$ $\theta$ ${\displaystyle 1,x_{1},\dots ,x_{n))$ ${\displaystyle \theta _{0},...,\theta _{n))$ $F Z)$

f(z)={\frac {1}{1+e^{{-z))))

Eftersom det bara tar värdena 0 och 1, är sannolikheten att ta värdet 0: $y$

{\mathbb {P}}\{y=0\mid x\}=1-f(z)=1-f(\theta ^{T}x).

För korthetens skull kan distributionsfunktionen för given skrivas i följande form: $y$ $x$

{\mathbb {P}}\{y\mid x\}=f(\theta ^{T}x)^{y}(1-f(\theta ^{T}x))^{{1-y }},\quad y\in \{0,1\}.

I själva verket är detta en Bernoulli-fördelning med en parameter lika med . $f(\theta ^{T}x)$

Val av parametrar

För att välja parametrarna är det nödvändigt att göra ett träningsprov bestående av uppsättningar värden av oberoende variabler och motsvarande värden för den beroende variabeln . Formellt är detta en uppsättning par , där är vektorn av värden för oberoende variabler, och är värdet som motsvarar dem . Varje sådant par kallas ett träningsexempel. ${\displaystyle \theta _{0},...,\theta _{n))$ $y$ $(x^{(1)},y^{(1)}),...,(x^{(m)},y^{(m)})$ $x^{{(i)}}\in {\mathbb {R}}^{n}$ $y^{{(i)}}\in \{0,1\}$ $y$

Vanligtvis används den maximala sannolikhetsmetoden , enligt vilka parametrar väljs som maximerar värdet av sannolikhetsfunktionen på träningsprovet: $\theta$

{\hat {\theta }}=\operatörsnamn {argmax}_{{\theta }}L(\theta )=\operatörsnamn {argmax}_({\theta }}\prod _{{i=1}}^ {{m}}{\mathbb {P}}\{y=y^{{(i)}}\mid x=x^{{(i)}}\}.

Att maximera sannolikhetsfunktionen är likvärdigt med att maximera dess logaritm :

\ln L(\theta )=\sum _{i=1}^{m}\log \mathbb {P} \{y=y^{(i)}\mid x=x^{(i )}\}=\summa _{i=1}^{m}{\Big [}y^{(i)}\ln f(\theta ^{T}x^{(i)})+(1 -y^{(i)})\ln(1-f(\theta ^{T}x^{(i)})){\Big ]}

, var

\theta ^{T}x^{(i)}=\theta _{0}+\theta _{1}x_{1}^{(i)}+\dots +\theta _{n} x_{n}^{(i)}.

För att maximera denna funktion, till exempel, kan metoden för gradientnedstigning användas . Det består i att utföra följande iterationer, med början från något initialt parametervärde : $\theta$

\theta :=\theta +\alpha \nabla \ln L(\theta )=\theta +\alpha \sum _{{i=1}}^{{m}}(y^{{(i)}} -f(\theta ^{T}x^{{(i)}}))x^{{(i)}},\alpha >0.

I praktiken används också Newtons metod och stokastiska gradientnedstigning .

Regularisering

För att förbättra den resulterande modellens generaliseringsförmåga, det vill säga att minska effekten av överanpassning , övervägs i praktiken ofta logistisk regression med regularisering .

Regulariseringen ligger i det faktum att parametervektorn behandlas som en slumpmässig vektor med viss fördelningstäthet på förhand . För att träna modellen, istället för metoden med maximal sannolikhet , används metoden för att maximera den a posteriori uppskattningen , det vill säga parametrarna som maximerar värdet söks efter : $\theta$ $p(\theta)$ $\theta$

\prod _{{i=1}}^{m}{\mathbb {P}}\{y^{{(i)}}\mid x^{{(i)}},\theta \}\cdot p(\theta ).

Den tidigare fördelningen är ofta en noll-medelvärde för multivariat normalfördelning med en kovariansmatris som motsvarar den a priori uppfattningen att alla regressionskoefficienter bör vara små tal, idealiskt bör många koefficienter med liten signifikans vara noll. Genom att ersätta densiteten för denna tidigare fördelning i formeln ovan och ta logaritmen får vi följande optimeringsproblem: ${\mathcal {N}}(0,\sigma ^{2}I)$ $\sigma ^{2}I$

\sum \limits _{{i=1}}^{m}\log {\mathbb {P}}\{y^{{(i)}}\mid x^{{(i))),\theta \}-\lambda \|\theta \|^{2}\,\to {\mbox{max)),

var är regulariseringsparametern. Denna metod är känd som L2-regulariserad logistisk regression eftersom objektivfunktionen inkluderar L2-normen för parametervektorn för regularisering. $\lambda ={\mbox{const}}/{\sigma ^{2}}$

Om vi istället för L2-normen använder L1-normen , vilket motsvarar att använda Laplace-fördelningen som a priori istället för den normala, så får vi en annan vanlig version av metoden - L1-regulariserad logistisk regression:

\sum _{{i=1}}^{m}\log {\mathbb {P}}\{y^{{(i)}}\mid x^{{(i))),\theta \} -\lambda \|\theta \|_{1}\,\till {\mbox{max}}.

Applikation

Denna modell används ofta för att lösa klassificeringsproblem - ett objekt kan tilldelas klassen om sannolikheten förutsägs av modellen och till klassen annars. De resulterande klassificeringsreglerna är linjära klassificerare . $x$ $y=1$ ${\mathbb {P}}\{y=1\mid x\}>0{,}5$ $y=0$

Relaterade metoder

Probit-regression är mycket lik logistisk regression , och skiljer sig från den endast i ett annat val av funktion . Softmax-regression generaliserar logistisk regression till fallet med multiklassklassificering, det vill säga när den beroende variabeln antar mer än två värden. Alla dessa modeller är i sin tur representanter för en bred klass av statistiska modeller - generaliserade linjära modeller . $F Z)$ $y$

Se även

Litteratur

Andrew Ng. Stanford CS229 föreläsningsanteckningar

Minsta kvadrater och regressionsanalys

Beräkningsstatistik _

Minsta kvadratiska metod
Linjär MNC
Icke-linjära minsta kvadrater
LSM med iterativ omräkning av vikter

Korrelation
och beroende

Pearson korrelationskoefficient
Rank korrelation ( Spearman
Kendall )
Partiell korrelation
Snedvridande faktor

Regressionsanalys

Vanlig MNC
Metod med partiell minsta kvadrat
Minst hela kvadrater
Ridge regression

Regression som
statistisk
modell

Linjär regression	Enkel linjär regression Vanlig MNC Generaliserade minsta kvadrater Viktade minsta rutor Grundläggande linjär modell
prediktiv ram	Polynomregression tillväxtkurva Segmenterad regression Lokal regression
Anpassad regression	icke-linjär Icke-parametrisk semi-parametrisk hållbar kvantil isotoniska
Icke -standardfel	Generaliserad linjär modell Binomial regression Poisson-regression Logistisk tillbakagång

Variansupplösning

Variansanalys
Kovariansanalys
Multivariat variansanalys

Modellstudie

C p Malva
Stegvis regression
Att välja en statistisk modell
Validering av regressionsmodell

Förutsättningar

Genomsnittlig och förväntad respons
Gauss-Markovs teorem
Fel och avvikelser
Statistiskt test
Studentiserad balans
Minsta medelkvadratfel

Experimentplanering
_

Responsytmetodik
Optimal experimentdesign
Bayesiansk experimentdesign

Numerisk
uppskattning

Ansökningar

Approximation med hjälp av kurvor
Kalibreringskurva
Savitsky-Golay filter
Systemidentifiering
Metod för att flytta minsta kvadrater

Maskininlärning och datautvinning
Uppgifter	Klassificeringsproblem Lärande utan lärare Lärarassisterat lärande Regressionsanalys AutoML Föreningens regler Särdragsextraktion Egenskapsträning Ranking utbildning Grammatisk härledning Online lärande
Att lära sig med en lärare	k-närmaste granne metod Naiv Bayes klassificerare beslutsträd Stöd vektor maskin Linjär regression Logistisk tillbakagång perceptron Ensembler av modeller Säckväv förstärkning slumpmässig skog Relevant vektormetod
klusteranalys	k-betyder metod Fuzzy klustringsmetod Hierarkisk klustring EM algoritm BJÖRK BOTA DBSCAN OPTIK Genomsnittlig förskjutning
Dimensionalitetsreduktion	Faktoranalys Huvudkomponentmetoden CCA ICA LDA Icke-negativ matrisexpansion t-SNE
Strukturell prognos	Graph probabilistisk modell Bayesiskt nätverk Dold Markov-modell CRF
Anomali upptäckt	k-närmaste granne metod Lokal utsläppsnivå
Grafisk probabilistiska modeller	Bayesiskt nätverk Markov nätverk Dold Markov-modell
Neurala nätverk	Begränsad Boltzmann-maskin självorganiserande karta Aktiveringsfunktion Sigmoid softmax Radiell basfunktion Ryggförökningsmetod Djup lärning Flerskiktsperceptron Återkommande neurala nätverk långtidsminne Kontrollerat återkommande block Konvolutionellt neuralt nätverk U-Net Autokodare
Förstärkningsinlärning	Markov process Bellmans ekvation Girig algoritm Q-lärande SARSA Temporell skillnad (TD)
Teori	Vapnik-Chervonenkis teori Bias-Dispersion Dilemma Beräkningslärandeteori Empirisk riskminimering Occam lär sig PAC-inlärning Statistisk inlärningsteori
Tidskrifter och konferenser	NeurIPS ICML ML JMLR ArXiv:cs.LG