En binär valmodell är en modell för beroendet av en binär variabel (med endast två värden - 0 och 1) på en uppsättning faktorer som används i ekonometri . Konstruktionen av en vanlig linjär modell för sådana beroende variabler är teoretiskt felaktig, eftersom den betingade förväntan av sådana variabler är lika med sannolikheten att den beroende variabeln kommer att få värdet 1, och den linjära modellen tillåter bland annat negativa värden och värden över 1 (trots att sannolikheten måste vara från 0 upp till 1). Därför används ofta vissa kumulativa fördelningsfunktioner. De vanligaste är normalfördelningen ( probit ), den logistiska fördelningen ( logit ) och Gompertz-fördelningen (gompit).
Låt variabeln vara binär, det vill säga den kan bara ta två värden, som för enkelhets skull antas vara lika med och . Det kan till exempel betyda närvaro/frånvaro av några villkor, framgång eller misslyckande för något, svaret är ja/nej i en undersökning etc. Låt det också finnas en vektor av regressorer (faktorer) som påverkar .
Regressionsmodellen behandlar den faktorbetingade förväntan av den beroende variabeln, som i detta fall är lika med sannolikheten att den beroende variabeln är lika med 1. Ja, genom definitionen av den matematiska förväntan och med hänsyn till endast två möjliga värden , vi har:
I detta avseende är användningen av till exempel den vanliga linjära regressionsmodellen teoretiskt felaktig, om så bara för att sannolikheten, per definition, tar begränsade värden från 0 till 1. I detta avseende är det rimligt att modellera genom integralfunktioner av vissa distributioner.
Det antas vanligtvis att det finns någon dold (ej observerad) "vanlig" variabel , beroende på vilka värden den observerade variabeln har värdet 0 eller en:
Det antas att den latenta variabeln beror på faktorerna i betydelsen den vanliga linjära regressionen , där det slumpmässiga felet har en fördelning . Sedan
Om fördelningen är symmetrisk kan vi skriva
En annan motivering är att använda begreppet nyttan av alternativ - inte en observerbar funktion , det vill säga i själva verket två funktioner respektive för två alternativ. Det är logiskt att anta att om, för givna värden på faktorerna, nyttan av ett alternativ är större än nyttan av det andra, så väljs det första och vice versa. I detta avseende är det rimligt att överväga alternativens nyttodifferensfunktion . Om det är större än noll, väljs det första alternativet, om det är mindre än eller lika med noll, då det andra. Sålunda spelar alternativens nyttodifferensfunktion här rollen som den mycket dolda variabeln. Förekomsten av ett slumpmässigt fel i bruksmodeller gör det möjligt att ta hänsyn till den icke-absoluta determinismen av valet (åtminstone, icke-bestämmande av en given uppsättning faktorer, även om det finns ett element av slumpmässiga val för varje uppsättning av faktorer).
Probit . Probitmodellenanvänder den kumulativa funktionen av standardnormalfördelningen:
Logit . Logitmodellen använder CDF för den logistiska distributionen:
Gompit . Fördelningen av extrema värden används - Gompertz-fördelningen:
Uppskattning görs vanligtvis med den maximala sannolikhetsmetoden . Låt det finnas ett urval av volymen av faktorer och en beroende variabel . Använd indexet för ett givet observationsnummer . Sannolikheten att få ett värde i en observation kan modelleras enligt följande:
Faktum är att om , då är den andra faktorn uppenbarligen lika med 1, och den första är bara , men om , då är den första faktorn lika med en och den andra är lika med . Uppgifterna antas vara oberoende. Därför kan sannolikhetsfunktionen erhållas som produkten av ovanstående sannolikheter:
Följaktligen har den logaritmiska sannolikhetsfunktionen formen:
Maximering av denna funktion med avseende på okända parametrar gör att man kan erhålla konsekventa , asymptotiskt effektiva och asymptotiskt normala parameteruppskattningar. Det senare betyder att:
var är den asymptotiska kovariansmatrisen för parameteruppskattningar, som bestäms på ett standardsätt för den maximala sannolikhetsmetoden (genom hessian eller gradienten för log-sannolikhetsfunktionen vid den optimala punkten).
var är värdena för log-sannolikheten för den uppskattade modellen och den begränsade modellen, där är en konstant (beror inte på faktorerna x, exklusive konstanten från uppsättningen av faktorer).
Denna statistik, som i det allmänna fallet med att använda den maximala sannolikhetsmetoden, gör det möjligt att testa den statistiska signifikansen för modellen som helhet. Om dess värde är tillräckligt stort (mer än det kritiska värdet för fördelningen , där är antalet faktorer (utan en konstant) för modellen), då kan modellen anses vara statistiskt signifikant.
Analoger av den klassiska bestämningskoefficienten används också , till exempel:
Båda indikatorerna sträcker sig från 0 till 1.
Det är viktigt att analysera andelen korrekta förutsägelser beroende på den valda klassificeringströskeln (från vilken sannolikhetsnivå värdet 1 tas). Vanligtvis används ROC-kurvan för att bedöma modellens kvalitet och AUC-indikatorn är området under ROC-kurvan.
Den exakta fördelningen av denna statistik är okänd, men författarna har genom simulering funnit att den uppskattas av fördelningen .