Logistisk regression eller logitmodell ( engelsk logitmodell ) är en statistisk modell som används för att förutsäga sannolikheten för att en händelse inträffar genom att jämföra den med en logistisk kurva . Denna regression ger svaret som sannolikheten för en binär händelse (1 eller 0).
Logistisk regression används för att förutsäga sannolikheten för att en händelse inträffar baserat på värdena för en uppsättning funktioner. För detta introduceras den så kallade beroende variabeln , som bara tar ett av två värden - som regel är dessa siffror 0 (händelsen inträffade inte) och 1 (händelsen inträffade), och en uppsättning av oberoende variabler (även kallade tecken, prediktorer eller regressorer) - verkliga , baserat på de värden som det krävs för att beräkna sannolikheten för att acceptera ett eller annat värde på den beroende variabeln. Som i fallet med linjär regression introduceras en dummyfunktion för att underlätta notationen
Det antas att sannolikheten för att en händelse inträffar är:
där , och är kolumnvektorer av värden för oberoende variabler och parametrar (regressionskoefficienter) - reella tal , respektive, och är den så kallade logistiska funktionen (ibland även kallad sigmoid- eller logit-funktionen):
Eftersom det bara tar värdena 0 och 1, är sannolikheten att ta värdet 0:
För korthetens skull kan distributionsfunktionen för given skrivas i följande form:
I själva verket är detta en Bernoulli-fördelning med en parameter lika med .
För att välja parametrarna är det nödvändigt att göra ett träningsprov bestående av uppsättningar värden av oberoende variabler och motsvarande värden för den beroende variabeln . Formellt är detta en uppsättning par , där är vektorn av värden för oberoende variabler, och är värdet som motsvarar dem . Varje sådant par kallas ett träningsexempel.
Vanligtvis används den maximala sannolikhetsmetoden , enligt vilka parametrar väljs som maximerar värdet av sannolikhetsfunktionen på träningsprovet:
Att maximera sannolikhetsfunktionen är likvärdigt med att maximera dess logaritm :
, varFör att maximera denna funktion, till exempel, kan metoden för gradientnedstigning användas . Det består i att utföra följande iterationer, med början från något initialt parametervärde :
I praktiken används också Newtons metod och stokastiska gradientnedstigning .
För att förbättra den resulterande modellens generaliseringsförmåga, det vill säga att minska effekten av överanpassning , övervägs i praktiken ofta logistisk regression med regularisering .
Regulariseringen ligger i det faktum att parametervektorn behandlas som en slumpmässig vektor med viss fördelningstäthet på förhand . För att träna modellen, istället för metoden med maximal sannolikhet , används metoden för att maximera den a posteriori uppskattningen , det vill säga parametrarna som maximerar värdet söks efter :
Den tidigare fördelningen är ofta en noll-medelvärde för multivariat normalfördelning med en kovariansmatris som motsvarar den a priori uppfattningen att alla regressionskoefficienter bör vara små tal, idealiskt bör många koefficienter med liten signifikans vara noll. Genom att ersätta densiteten för denna tidigare fördelning i formeln ovan och ta logaritmen får vi följande optimeringsproblem:
var är regulariseringsparametern. Denna metod är känd som L2-regulariserad logistisk regression eftersom objektivfunktionen inkluderar L2-normen för parametervektorn för regularisering.
Om vi istället för L2-normen använder L1-normen , vilket motsvarar att använda Laplace-fördelningen som a priori istället för den normala, så får vi en annan vanlig version av metoden - L1-regulariserad logistisk regression:
Denna modell används ofta för att lösa klassificeringsproblem - ett objekt kan tilldelas klassen om sannolikheten förutsägs av modellen och till klassen annars. De resulterande klassificeringsreglerna är linjära klassificerare .
Probit-regression är mycket lik logistisk regression , och skiljer sig från den endast i ett annat val av funktion . Softmax-regression generaliserar logistisk regression till fallet med multiklassklassificering, det vill säga när den beroende variabeln antar mer än två värden. Alla dessa modeller är i sin tur representanter för en bred klass av statistiska modeller - generaliserade linjära modeller .
Minsta kvadrater och regressionsanalys | |||||||||
---|---|---|---|---|---|---|---|---|---|
Beräkningsstatistik _ |
| ||||||||
Korrelation och beroende |
| ||||||||
Regressionsanalys |
| ||||||||
Regression som statistisk modell |
| ||||||||
Variansupplösning |
| ||||||||
Modellstudie |
| ||||||||
Förutsättningar |
| ||||||||
Experimentplanering _ |
| ||||||||
Numerisk uppskattning | |||||||||
Ansökningar |
|
Maskininlärning och datautvinning | |
---|---|
Uppgifter | |
Att lära sig med en lärare | |
klusteranalys | |
Dimensionalitetsreduktion | |
Strukturell prognos | |
Anomali upptäckt | |
Grafisk probabilistiska modeller | |
Neurala nätverk | |
Förstärkningsinlärning |
|
Teori | |
Tidskrifter och konferenser |
|