Probit- regression ( probit model , eng. probit ) är en statistisk (icke-linjär) modell och metod för att analysera beroendet av kvalitativa (främst binära) variabler av en mängd olika faktorer, baserat på normalfördelningen (till skillnad från t.ex. liknande logitregression , som är baserad på den logistiska fördelningen ). Inom ekonomi ( ekonometri ) används probit-modeller (tillsammans med logit, gompit, etc.) i binära valmodellereller i modeller för flerval mellan olika alternativ, för modellering av företags fallissemang , inom livförsäkring - för att uppskatta sannolikheten för dödsfall beroende på ålder och kön etc. Inom toxikologi används probit-regression för att uppskatta effekten av dosen eller koncentrationen av vissa ämnen på biologiska föremål.
Probitmodellen låter dig uppskatta sannolikheten att den analyserade (beroende) variabeln kommer att få värdet 1 för givna faktorvärden (det vill säga det är en uppskattning av andelen "enheter" för ett givet faktorvärde). I probitmodellen modelleras sannolikhetsfunktionen för sannolikhet som en linjär kombination av faktorer (inklusive en konstant). Probitfunktionen kallas funktionen invers till den kumulativa funktionen (CDF) för standardnormalfördelningen, det vill säga funktionen som bestämmer kvantilen för standardnormalfördelningen för en given sannolikhet .
Termen " probit " som en derivata av engelskan. Sannolikhetsenheten föreslogs (används först) av Chester Ittner Bliss [1899-1979]) [1] i hans artikel om den kvantitativa analysen av gifters dödliga effekt på exemplet med effekten av nikotin på oxalbladlössen ( Aphis rumicis ) L. ) [1] . Sedan dess har metoden för probitanalys varit särskilt populär inom toxikologi . Själva användningen av normalfördelningsfunktionen för att beskriva förhållandet "dos-effekt" går tillbaka till den engelske matematikern J. W. Trevan, som visade att intensiteten av det cellulära svaret på en given dos av en läkemedelssubstans följer den Gaussiska fördelningen [2] .
Probitmodellen är ett specialfall av den binära valmodellen som använder normalfördelningen. Låt nämligen den beroende variabeln vara binär, det vill säga att den bara kan ta två värden, som för enkelhetens skull antas vara och . Det kan till exempel betyda närvaro/frånvaro av några villkor, framgång eller misslyckande för något, svaret är ja/nej i en undersökning etc. Låt det också finnas en vektor av regressorer (faktorer) som påverkar . Probitmodellen antar att sannolikheten för vad som bestäms av normalfördelningen, så probitmodellen är:
var är den kumulativa fördelningsfunktionen ( CDF ) för standardnormalfördelningen, är de okända parametrarna som ska uppskattas.
Användningen av standardnormalfördelningen begränsar inte modellens generalitet, eftersom ett eventuellt medelvärde som inte är noll beaktas i en konstant som nödvändigtvis finns bland faktorerna, och en eventuell icke-enhetsvarians beaktas pga. till lämplig normalisering av alla koefficienter b.
Som i det allmänna fallet med den binära valmodellen är modellen baserad på antagandet att det finns någon dold (oobserverad) variabel , beroende på vilka värden den observerade variabeln tar värdet av eller :
Den latenta variabeln antas bero på faktorer i betydelsen vanlig linjär regression , där det slumpmässiga felet i detta fall har en standardnormalfördelning . Sedan
Den sista likheten följer av normalfördelningens symmetri.
Modellen kan också underbyggas genom användbarheten av alternativ - en icke-observerbar funktion , det vill säga i själva verket två funktioner och för två alternativ. Användningsskillnadsfunktionen för alternativ här spelar rollen som den mycket dolda variabeln.
Uppskattning görs vanligtvis med den maximala sannolikhetsmetoden . Låt det finnas ett urval av volymen av faktorer och en beroende variabel . Använd indexet för ett givet observationsnummer . Log-likelihood-funktionen har formen:
Maximering av denna funktion med avseende på okända parametrar gör att man kan erhålla konsekventa , asymptotiskt effektiva och asymptotiskt normala parameteruppskattningar. Det senare betyder att:
var är den asymptotiska kovariansmatrisen för parameteruppskattningar, som bestäms av standardmetoden för den maximala sannolikhetsmetoden (genom hessian eller gradienten för log-sannolikhetsfunktionen vid den optimala punkten):
,var är sannolikhetstäthetsfunktionen ( PDF ) för standardnormalfördelningen .
Matrisen är känd och dess konsekventa uppskattning används :
Typiskt utförs modellutvärdering i specialiserade (statistiska, ekonometriska ) mjukvaruprodukter, till exempel Statistica , EViews, Matrixer, R [3] , SPSS, etc. [4] , även om "manuell" utvärdering är möjlig, till exempel i MS Office Excel, med den inbyggda "Searching for a solution" för att maximera loggsannolikhetsfunktionen.
För att bedöma kvaliteten på den konstruerade probit -regressionen används standardstatistiken för binära valmodeller :
Det är viktigt att analysera andelen korrekta förutsägelser. I synnerhet analyseras andelen korrekta och (eller) felaktiga prognoser för värdet av vart och ett av värdena för den beroende variabeln (0 och 1).
Betrakta probit-modellen genom att använda exemplet med insekticidverkan på insekter [5] [6] . Den beroende binära variabeln är en variabel som tar värdet 1 om insekten dog, och 0 annars. I ett urval av insekter är svaret från vissa insekter på en insekticid inte beroende av andras svar. "Mätaren" för dosen fungerar som en faktor för modellen , där är dosen av insekticidet. Sannolikheten att en insekt slumpmässigt utvald från populationen kommer att dö under en given tid är lika med
.Om modellparametrarna och är kända (vi betecknar uppskattningarna respektive ), så hittas dosnivån , vid vilken en viss procentandel av insekter dör, från ekvationen
,var är nivåkvantilen för standardnormalfördelningen.
I synnerhet för den dosnivå vid vilken 50 % av insekterna dör, . Detta värde i toxikologi kallas vanligtvis LD 50 .
Du kan också konstruera ett ungefärligt konfidensintervall för följande: . Spridningen kan uppskattas ungefär som följer:
,där är en uppskattning av variansen av modellparameteruppskattningar, är en uppskattning av kovariansen mellan parameteruppskattningar.
Ett mer exakt konfidensintervall kan uppskattas från Fellers teorem , enligt vilken 95 % konfidensgränser för är rötterna till andragradsekvationen
,var är 95% Students t-fördelningspunkt.
I praktiken finns det situationer då det är nödvändigt att utforska inte två alternativ, utan flera alternativ. Om dessa alternativ är oordnade talar man om en multinominell probitmodell . När det gäller beställda alternativ (till exempel en 5-punktsbedömning av kvaliteten på en tjänst eller produkt) talar man om en ordinal eller beställd ( beställd ) probitmodell .