Robusthet ( eng. robustness ← robust "stark; stark; solid; stabil") är en egenskap hos en statistisk metod som kännetecknar inflytandets oberoende på resultatet av studiet av olika sorters utsläpp , motståndskraft mot störningar.
Outlier (robust) metod - en metod som syftar till att identifiera extremvärden, minska deras påverkan eller utesluta dem från urvalet .
I praktiken kan förekomsten i urvalet av även ett litet antal extremvärden (outliers) i hög grad påverka resultatet av studien, till exempel är minsta kvadratmetoden och metoden för maximal sannolikhet på specifika fördelningar föremål för sådana snedvridningar, och värden som erhållits som ett resultat av studien kan upphöra att ha någon betydelse för dig själv. För att eliminera påverkan av sådan störning används olika tillvägagångssätt för att minska påverkan av "dåliga" observationer (outliers), eller för att helt eliminera dem. Huvuduppgiften för outliermetoder är att skilja en "dålig" observation från en "bra", och även de enklaste tillvägagångssätten, subjektiva (baserat på forskarens inre känslor), kan dock vara till stor nytta för motiverat avslag, forskare använder fortfarande metoder som är baserade på någon rigorös matematisk motivering. Denna process är en mycket icke-trivial uppgift för en statistiker och definierar ett av områdena inom statistisk vetenskap .
Betrakta ett klassiskt exempel på robusta och icke-robusta egenskaper för att beräkna medelinkomsten. Låt det vara 10 personer, av vilka nio tjänar 100 rubel var och en tjänar 500 rubel. Det aritmetiska medelvärdet av siffrorna är 140, även om 90 % av personerna i urvalet tjänar mindre. Samtidigt är provets median 100: ett mycket annorlunda värde påverkade inte värdet på medianen. Således är medianen ett exempel på en robust egenskap, medan det aritmetiska medelvärdet inte är det.
Avvikande stabilitet (robusthet) i statistik förstås som känslighet för olika avvikelser och inhomogeniteter i urvalet, förknippad med vissa, allmänt okända, orsaker [1] [2] . Det kan vara detektorfel som registrerar observationer, någons samvetsgranna eller medvetna försök att ”passa in” provet innan det kommer in i statistiken, designfel, stavfel som smugit sig in och mycket mer. Till exempel är den mest extrema uppskattningen av fördelningslagsförskjutningsparametern medianen , vilket är ganska uppenbart på en intuitiv nivå (för ett rigoröst bevis bör man använda det faktum att medianen är en trunkerad M-uppskattning, se nedan ) [ 1] . Förutom direkt "defekta" observationer kan det även finnas ett antal observationer som följer en annan fördelning . På grund av distributionslagarnas villkorlighet , och detta är inget annat än en beskrivningsmodell, kan själva urvalet innehålla vissa avvikelser med idealet.
Ändå har det parametriska tillvägagångssättet blivit så vant, vilket bevisar sin enkelhet och ändamålsenlighet, att det är absurt att vägra det. Därför blev det nödvändigt att anpassa gamla modeller till nya uppgifter.
Det är värt att betona separat och inte glömma att de avvisade observationerna behöver separat, närmare uppmärksamhet. Observationer som verkar "dåliga" för en hypotes kan mycket väl stämma överens med en annan. Slutligen, inte alltid skarpt framstående observationer är ett "äktenskap". En sådan observation för genteknik , till exempel, är värd miljontals andra som skiljer sig lite från varandra.
För att begränsa påverkan av inhomogeniteter, eller för att eliminera den helt, finns det många olika tillvägagångssätt. Bland dem sticker två huvudriktningar ut.
Genom att gruppera urvalet kan påverkan av individuella observationer minskas drastiskt utan att förkasta dem. Indelningen i intervaller är inte speciellt svår och ger ett mycket påtagligt resultat. Det finns tre vanligaste partitioneringsmetoderna.
Ett separat tillvägagångssätt vid konstruktionen av extrema metoder är uppskattningen av parametrarna i distributionslagen för ett "förorenat" prov med hjälp av det tillvägagångssätt som föreslås av Hampel [1] . För att studera inflytandet av en enskild observation på bedömningen (statistik under övervägande) av en eller annan parameter i distributionslagen, introducerar Hampel den så kallade påverkansfunktionen , som inte är något annat än en derivata av denna statistik .
Funktionen introduceras som en funktion av något urval från fördelningen med parametern (det är också ). beror på . Så är en funktion av lagen och av parametern . Låt även uppfylla några villkor för konsistens och regelbundenhet :
Derivatan av denna funktion vid en punkt med distribution :
var:
När du ersätter , tillskriver händelsen en massaenhet i stället för , som ett resultat av vilket endast :
Denna funktion kallas för påverkansfunktionen .
Innebörden av påverkansfunktionen visas genom att ersätta och ersätta gränsen, som ett resultat omvandlas uttrycket till , vilket motsvarar situationen när ytterligare en ny läggs till urvalet bestående av observationer som lyder fördelningen . Således spårar den reaktionen av den använda funktionaliteten på det tillägg som gjorts, och visar effekten av bidraget från en enskild observation på bedömningen över hela datamängden.
För att karakterisera påverkan av individuella observationer introduceras också begreppet känslighet för ett stort fel :
Om påverkansfunktionen är begränsad kallas motsvarande uppskattning B(be)-robust .
De mest effektiva och mest använda uppskattningarna av parametrarna för distributionslagar är maximal sannolikhetsuppskattningar (MLEs), som bestäms av ett av följande villkor:
när det gäller ett ogrupperat prov och i fallet med ett grupperat prov,
M-uppskattningar - det finns en viss generalisering av massförstörelsevapen. De definieras på liknande sätt av en av relationerna:
Om vi inför ett regularitetsvillkor i substitutionen och differentierar det med avseende på 0:
då är det inte svårt att få uttrycket för påverkansfunktionen för M-uppskattningar :
Detta uttryck låter oss dra slutsatsen att M-uppskattningarna är ekvivalenta upp till en konstant faktor som inte är noll.
Det är lätt att kontrollera att för MLE för den vanliga normalfördelningslagen ser påverkansfunktionerna för skiftparametern respektive skalparametern ut:
Dessa funktioner är obegränsade, vilket innebär att MLE inte är utbrottstolerant (robust) vad gäller B-robusthet.
För att korrigera detta begränsar M-uppskattningar artificiellt och begränsar det därför (se uttrycket för M-uppskattningar), vilket sätter en övre barriär för påverkan av extremvärden (långt ifrån parametrarnas förväntade värden) observationer. Detta görs genom att introducera de så kallade trunkerade M-uppskattningarna, definierade av uttrycket:
där , och är uppskattningar av skift- respektive skalparametrar.
Bland de trunkerade M-uppskattningarna är de trunkerade MLE [1] optimala ur B-robusthetens synvinkel .
För att lösa ekvationen
,någon numerisk metod måste användas . För att göra detta måste du välja de initiala uppskattningarna. Nollskiftsparametern är vanligtvis medianen och skalparametern är en multipel av medianen för avvikelserna från medianen.
Till exempel, om du behöver uppskatta skiftparametern, säg, för normalfördelningslagen , kan du använda Newtons metod för att numeriskt hitta rötterna till ekvationen . Som ett resultat reduceras hela proceduren för att hitta parametern till den iterativa beräkningen av uttrycket:
var är någon uppskattning av skalparametern som används för att utjämna fördelningar med olika intervall.