Logistisk tillbakagång

Den aktuella versionen av sidan har ännu inte granskats av erfarna bidragsgivare och kan skilja sig väsentligt från versionen som granskades den 8 februari 2022; verifiering kräver 1 redigering .

Logistisk regression eller logitmodell ( engelsk  logitmodell ) är en statistisk modell som används för att förutsäga sannolikheten för att en händelse inträffar genom att jämföra den med en logistisk kurva . Denna regression ger svaret som sannolikheten för en binär händelse (1 eller 0).

Beskrivning

Logistisk regression används för att förutsäga sannolikheten för att en händelse inträffar baserat på värdena för en uppsättning funktioner. För detta introduceras den så kallade beroende variabeln , som bara tar ett av två värden - som regel är dessa siffror 0 (händelsen inträffade inte) och 1 (händelsen inträffade), och en uppsättning av oberoende variabler (även kallade tecken, prediktorer eller regressorer) - verkliga , baserat på de värden som det krävs för att beräkna sannolikheten för att acceptera ett eller annat värde på den beroende variabeln. Som i fallet med linjär regression introduceras en dummyfunktion för att underlätta notationen

Det antas att sannolikheten för att en händelse inträffar är:

där , och  är kolumnvektorer av värden för oberoende variabler och parametrar (regressionskoefficienter) - reella tal , respektive, och  är den så kallade logistiska funktionen (ibland även kallad sigmoid- eller logit-funktionen):

Eftersom det bara tar värdena 0 och 1, är sannolikheten att ta värdet 0:

För korthetens skull kan distributionsfunktionen för given skrivas i följande form:

I själva verket är detta en Bernoulli-fördelning med en parameter lika med .

Val av parametrar

För att välja parametrarna är det nödvändigt att göra ett träningsprov bestående av uppsättningar värden av oberoende variabler och motsvarande värden för den beroende variabeln . Formellt är detta en uppsättning par , där  är vektorn av värden för oberoende variabler, och  är värdet som motsvarar dem . Varje sådant par kallas ett träningsexempel.

Vanligtvis används den maximala sannolikhetsmetoden , enligt vilka parametrar väljs som maximerar värdet av sannolikhetsfunktionen på träningsprovet:

Att maximera sannolikhetsfunktionen är likvärdigt med att maximera dess logaritm :

, var

För att maximera denna funktion, till exempel, kan metoden för gradientnedstigning användas . Det består i att utföra följande iterationer, med början från något initialt parametervärde :

I praktiken används också Newtons metod och stokastiska gradientnedstigning .

Regularisering

För att förbättra den resulterande modellens generaliseringsförmåga, det vill säga att minska effekten av överanpassning , övervägs i praktiken ofta logistisk regression med regularisering .

Regulariseringen ligger i det faktum att parametervektorn behandlas som en slumpmässig vektor med viss fördelningstäthet på förhand . För att träna modellen, istället för metoden med maximal sannolikhet , används metoden för att maximera den a posteriori uppskattningen , det vill säga parametrarna som maximerar värdet söks efter :

Den tidigare fördelningen är ofta en noll-medelvärde för multivariat normalfördelning med en kovariansmatris som motsvarar den a priori uppfattningen att alla regressionskoefficienter bör vara små tal, idealiskt bör många koefficienter med liten signifikans vara noll. Genom att ersätta densiteten för denna tidigare fördelning i formeln ovan och ta logaritmen får vi följande optimeringsproblem:

var  är regulariseringsparametern. Denna metod är känd som L2-regulariserad logistisk regression eftersom objektivfunktionen inkluderar L2-normen för parametervektorn för regularisering.

Om vi ​​istället för L2-normen använder L1-normen , vilket motsvarar att använda Laplace-fördelningen som a priori istället för den normala, så får vi en annan vanlig version av metoden - L1-regulariserad logistisk regression:

Applikation

Denna modell används ofta för att lösa klassificeringsproblem  - ett objekt kan tilldelas klassen om sannolikheten förutsägs av modellen och till klassen annars. De resulterande klassificeringsreglerna är linjära klassificerare .

Relaterade metoder

Probit-regression är mycket lik logistisk regression , och skiljer sig från den endast i ett annat val av funktion . Softmax-regression generaliserar logistisk regression till fallet med multiklassklassificering, det vill säga när den beroende variabeln antar mer än två värden. Alla dessa modeller är i sin tur representanter för en bred klass av statistiska modeller - generaliserade linjära modeller .

Se även

Litteratur