Icke-parametrisk statistik

Icke-parametrisk statistik  är en gren av statistik som inte enbart är baserad på parametriserade familjer av sannolikhetsfördelningar (allmänt kända exempel på parametrar är medelvärdet och variansen). Icke-parametrisk statistik inkluderar beskrivande statistik och statistisk slutledning .

Definitioner

Statistikern Larry Wasserman sa: "Det är svårt att ge en tydlig definition av icke-parametrisk statistik." [1] Termen "icke-parametrisk statistik" kan definieras löst, bland annat på följande två sätt.

  1. Den första betydelsen av icke- parametrisk omfattar metoder som inte förlitar sig på data relaterade till någon speciell distribution. Bland annat inkluderar de:

    Följande resonemang är hämtat från Kendalls Advanced Theory of Statistics . [2]

    Statistiska hypoteser uppmärksammar beteendet hos observerade slumpvariabler ... Till exempel hypotesen (a) att normalfördelningen har en viss matematisk förväntan och dess varians är statistisk; hypotes (b) - att den matematiska förväntan är given, variansen är inte given; hypotes (c) - att fördelningen har en normal form, den matematiska förväntan och variansen är inte specificerade; slutligen, hypotes (d), de två okända kontinuerliga fördelningarna sammanfaller.

    Observera att i exemplen (a) och (b) definierades fördelningen som låg bakom observationerna som normalfördelningen, och hypotesen var helt associerad med värdet av en eller båda parametrarna. En sådan hypotes kallas av förklarliga skäl parametrisk.

    Hypotes (c) har en annan karaktär, eftersom parametrarnas värden inte anges i formuleringen av hypotesen; en sådan hypotes kan rimligen kallas icke-parametrisk. Hypotes (d) är också icke-parametrisk, men dessutom bestämmer den inte ens typen av distribution och kan kallas distributionsfri. Trots dessa skillnader betecknar den statistiska litteraturen vanligtvis "icke-parametriska" metoderna vi just har kallat "distributionsfria", och bryter därmed ner en användbar klassificering.

  2. Den andra betydelsen av icke- parametrisitet omfattar metoder som inte förutsätter att modellens struktur är fixerad. Vanligtvis ökar modellens storlek med dataernas komplexitet. Dessa metoder förutsätter att enskilda variabler tillhör parametriska fördelningar och gör antaganden om typerna av samband mellan variabler. Dessa metoder inkluderar bland annat:
    • icke- parametrisk regression - modellering, genom vilken strukturen av relationen mellan variabler betraktas icke-parametriskt. Det kan dock finnas parametriska antaganden om fördelningen av modellresidualer.
    • icke-parametriska hierarkiska Bayesianska modeller , såsom de baserade på Dirichlet-processen , som tillåter antalet latenta variabler att växa efter behov för att passa data. Individuella variabler kan emellertid vara föremål för parametriska fördelningar, och till och med processen som kontrollerar tillväxthastigheten för latenta variabler är föremål för en parametrisk fördelning.

Syfte och tillämpningar

Icke-parametriska metoder används ofta för att studera populationer som accepterar rankad ordning (till exempel filmrecensioner, som kan få mellan en och fyra stjärnor). Användning av icke-parametriska metoder kan vara nödvändig när data har en rangordning men inte har en tydlig numerisk tolkning, till exempel i preferensuppskattning . När det gäller skalor är resultaten av icke-parametriska metoder ordinaldata .

Eftersom icke-parametriska metoder gör färre antaganden, är deras räckvidd mycket bredare än parametriska metoder. I synnerhet kan de tillämpas i situationer där det finns mindre information om själva ansökan. Också, eftersom de beror på färre antaganden, är icke-parametriska metoder mer tillförlitliga .

Ett annat skäl för att använda icke-parametriska metoder är deras enkelhet. I vissa fall, även där användningen av parametriska metoder är motiverad, kan det vara lättare att använda icke-parametriska metoder. På grund av de skäl som anges ovan anses icke-parametriska metoder av vissa statistiker vara mindre benägna att missförstås och missbrukas.

Den bredare tillämpbarheten och ökade robustheten (tillförlitligheten) hos icke-parametriska metoder har en kostnad: i fall där en parametrisk metod är lämplig har de icke-parametriska mindre statistisk styrka . Med andra ord kan det krävas en större urvalsstorlek för att dra slutsatser med samma tillförsikt .

Icke-parametriska modeller

Icke-parametriska modeller skiljer sig från parametriska modeller genom att modellens struktur inte ges a priori , utan bestäms av data. Termen icke- parametrisk betyder inte fullständig frånvaro av parametrar. Det är bara det att deras antal och karaktär är flexibla och inte fastställda i förväg.

Metoder

Icke- parametriska (eller distributionsfria ) statistiska slutledningsmetoder är matematiska procedurer för att testa statistiska hypoteser som, till skillnad från parametrisk statistik , inte gör några antaganden om sannolikhetsfördelningarna för de variabler som uppskattas. Sådana metoder kallas icke-parametriska statistiska tester . De vanligaste kriterierna inkluderar:

Historik

Bland den tidiga icke-parametriska statistiken finns medianen (1200-talet eller tidigare, använd i Edward Wrights uppskattning , 1599) och John Arbuthnots teckentest (1710) för att analysera en persons könsförhållande vid födseln. [3]

Anteckningar

  1. Wasserman (2007), s.1
  2. Stuart A., Ord JK, Arnold S. (1999), Kendall's Advanced Theory of Statistics: Volume 2A—Classical Inference and the Linear Model , sjätte upplagan, §20.2–20.3 ( Arnold ).
  3. Conover, WJ (1999), Kapitel 3.4: The Sign Test, Practical Nonparametric Statistics (tredje upplagan), Wiley, sid. 157–176, ISBN 0-471-16068-7 

Litteratur