Icke-parametrisk statistik
Icke-parametrisk statistik är en gren av statistik som inte enbart är baserad på parametriserade familjer av sannolikhetsfördelningar (allmänt kända exempel på parametrar är medelvärdet och variansen). Icke-parametrisk statistik inkluderar beskrivande statistik och statistisk slutledning .
Definitioner
Statistikern Larry Wasserman sa: "Det är svårt att ge en tydlig definition av icke-parametrisk statistik." [1] Termen "icke-parametrisk statistik" kan definieras löst, bland annat på följande två sätt.
- Den första betydelsen av icke- parametrisk omfattar metoder som inte förlitar sig på data relaterade till någon speciell distribution. Bland annat inkluderar de:
Följande resonemang är hämtat från Kendalls Advanced Theory of Statistics . [2]
Statistiska hypoteser uppmärksammar beteendet hos observerade slumpvariabler ... Till exempel hypotesen (a) att normalfördelningen har en viss matematisk förväntan och dess varians är statistisk; hypotes (b) - att den matematiska förväntan är given, variansen är inte given; hypotes (c) - att fördelningen har en normal form, den matematiska förväntan och variansen är inte specificerade; slutligen, hypotes (d), de två okända kontinuerliga fördelningarna sammanfaller.
Observera att i exemplen (a) och (b) definierades fördelningen som låg bakom observationerna som normalfördelningen, och hypotesen var helt associerad med värdet av en eller båda parametrarna. En sådan hypotes kallas av förklarliga skäl parametrisk.
Hypotes (c) har en annan karaktär, eftersom parametrarnas värden inte anges i formuleringen av hypotesen; en sådan hypotes kan rimligen kallas icke-parametrisk. Hypotes (d) är också icke-parametrisk, men dessutom bestämmer den inte ens typen av distribution och kan kallas distributionsfri. Trots dessa skillnader betecknar den statistiska litteraturen vanligtvis "icke-parametriska" metoderna vi just har kallat "distributionsfria", och bryter därmed ner en användbar klassificering.
- Den andra betydelsen av icke- parametrisitet omfattar metoder som inte förutsätter att modellens struktur är fixerad. Vanligtvis ökar modellens storlek med dataernas komplexitet. Dessa metoder förutsätter att enskilda variabler tillhör parametriska fördelningar och gör antaganden om typerna av samband mellan variabler. Dessa metoder inkluderar bland annat:
- icke- parametrisk regression - modellering, genom vilken strukturen av relationen mellan variabler betraktas icke-parametriskt. Det kan dock finnas parametriska antaganden om fördelningen av modellresidualer.
- icke-parametriska hierarkiska Bayesianska modeller , såsom de baserade på Dirichlet-processen , som tillåter antalet latenta variabler att växa efter behov för att passa data. Individuella variabler kan emellertid vara föremål för parametriska fördelningar, och till och med processen som kontrollerar tillväxthastigheten för latenta variabler är föremål för en parametrisk fördelning.
Syfte och tillämpningar
Icke-parametriska metoder används ofta för att studera populationer som accepterar rankad ordning (till exempel filmrecensioner, som kan få mellan en och fyra stjärnor). Användning av icke-parametriska metoder kan vara nödvändig när data har en rangordning men inte har en tydlig numerisk tolkning, till exempel i preferensuppskattning . När det gäller skalor är resultaten av icke-parametriska metoder ordinaldata .
Eftersom icke-parametriska metoder gör färre antaganden, är deras räckvidd mycket bredare än parametriska metoder. I synnerhet kan de tillämpas i situationer där det finns mindre information om själva ansökan. Också, eftersom de beror på färre antaganden, är icke-parametriska metoder mer tillförlitliga .
Ett annat skäl för att använda icke-parametriska metoder är deras enkelhet. I vissa fall, även där användningen av parametriska metoder är motiverad, kan det vara lättare att använda icke-parametriska metoder. På grund av de skäl som anges ovan anses icke-parametriska metoder av vissa statistiker vara mindre benägna att missförstås och missbrukas.
Den bredare tillämpbarheten och ökade robustheten (tillförlitligheten) hos icke-parametriska metoder har en kostnad: i fall där en parametrisk metod är lämplig har de icke-parametriska mindre statistisk styrka . Med andra ord kan det krävas en större urvalsstorlek för att dra slutsatser med samma tillförsikt .
Icke-parametriska modeller
Icke-parametriska modeller skiljer sig från parametriska modeller genom att modellens struktur inte ges a priori , utan bestäms av data. Termen icke- parametrisk betyder inte fullständig frånvaro av parametrar. Det är bara det att deras antal och karaktär är flexibla och inte fastställda i förväg.
Metoder
Icke- parametriska (eller distributionsfria ) statistiska slutledningsmetoder är matematiska procedurer för att testa statistiska hypoteser som, till skillnad från parametrisk statistik , inte gör några antaganden om sannolikhetsfördelningarna för de variabler som uppskattas. Sådana metoder kallas icke-parametriska statistiska tester . De vanligaste kriterierna inkluderar:
- Likhetsanalys : testar den statistiska signifikansen av skillnaden mellan grupper av prover
- Anderson-Darling test: kontrollerar om det analyserade provet tillhör en given distributionslag
- Bootstrap : låter dig enkelt och snabbt utvärdera olika statistik för komplexa modeller
- Friedman-kriterium : används för att studera påverkan av olika faktorvärden (faktorgrader) på samma urval
- Kaplan-Meier estimator : uppskattar överlevnadsfunktionen från livstidsdata
- Kendalls tau : mäter det statistiska sambandet mellan två variabler
- Kendall's W : En icke-parametrisk statistik som mäter graden av likhet mellan två rankningar och kan användas för att utvärdera betydelsen av ett samband mellan dem
- Två-prov Kolmogorov-Smirnov- test: används för att testa hypotesen att två oberoende prov tillhör samma distributionslag
- Kruskal-Wallis variansanalys : testar hypotesen om huruvida de jämförda proverna har samma fördelning eller fördelningar med samma median
- Kuiper goodness-of-fit- test: används för att testa om en given distribution eller familj av distributioner inte är förenlig med dataexempelfunktioner
- Log-rank (log-rank) test : jämförelse av överlevnadsfördelningar för två prover
- Mann-Whitney U-test : används för att bedöma skillnaden mellan två oberoende prover i termer av nivån på någon egenskap, mätt kvantitativt
- McNemars chi-kvadrattest : testar om flera jämförda variabler skiljer sig signifikant eller inte, med värden på 0/1
- Mediantest : testar hypotesen att fördelningarna av två prover har samma form och skiljer sig endast genom en förskjutning med en konstant
- Pitman-permutationstest (omsampling) : ett statistiskt signifikanstest som ger exakta P-värden genom att undersöka alla möjliga etikettpermutationer
- Siegel-Tookey test: test för skillnader i skala mellan två grupper
- Teckentest : används i situationer där två mätningar (till exempel under olika förhållanden) av samma försökspersoner måste testas för närvaro eller frånvaro av skillnad i resultat
- Spearmans rangkorrelationskoefficient : används för att mäta ett icke-linjärt monotont samband mellan variabler
- Rangkvadrattest : test för varianslikhet i två eller flera urval
- Tukey-Duckworth- test: testar om ett av två prover var signifikant större än det andra
- Wald-Wolfowitz serietest: testar om elementen i en sekvens är ömsesidigt oberoende/slumpmässiga
- Wilcoxon -test: används för att testa för skillnader mellan två prover av parade mätningar
Historik
Bland den tidiga icke-parametriska statistiken finns medianen (1200-talet eller tidigare, använd i Edward Wrights uppskattning , 1599) och John Arbuthnots teckentest (1710) för att analysera en persons könsförhållande vid födseln. [3]
Anteckningar
- ↑ Wasserman (2007), s.1
- ↑ Stuart A., Ord JK, Arnold S. (1999), Kendall's Advanced Theory of Statistics: Volume 2A—Classical Inference and the Linear Model , sjätte upplagan, §20.2–20.3 ( Arnold ).
- ↑ Conover, WJ (1999), Kapitel 3.4: The Sign Test, Practical Nonparametric Statistics (tredje upplagan), Wiley, sid. 157–176, ISBN 0-471-16068-7
Litteratur
- Bagdonavicius, V., Kruopis, J., Nikulin, MS (2011). "Icke-parametriska tester för fullständig data", ISTE & WILEY: London & Hoboken. ISBN 978-1-84821-269-5 .
- Corder, GW; Foreman, DI Icke-parametrisk statistik: ett steg-för-steg tillvägagångssätt . - Wiley, 2014. - ISBN 978-1118840313 .
- Jean Gibbons; Chakraborti, Subhabrata (2003). Nonparametric Statistical Inference , 4th Ed. C.R.C. Tryck. ISBN 0-8247-4052-1 .
- Hettmansperger, T. P.; McKean, J.W. Robusta icke-parametriska statistiska metoder (obestämd) . - Först. — London: Edward Arnold, 1998. - V. 5. - (Kendall's Library of Statistics). — ISBN 0-340-54937-8 . även ISBN 0-471-19479-4 .
- Hollander M., Wolfe D. A., Chicken E. (2014). Nonparametric Statistical Methods , John Wiley & Sons.
- Sheskin, David J. (2003) Handbok för parametriska och icke-parametriska statistiska förfaranden . C.R.C. Tryck. ISBN 1-58488-440-1
- Wasserman, Larry (2007). All icke-parametrisk statistik , Springer. ISBN 0-387-25145-6 .
- Orlov AI Tillämpad statistisk analys: lärobok. - M .: AI Pi Ar Media, 2022. - 812 sid. — ISBN 978-5-4497-1480-0 [1]
Ordböcker och uppslagsverk |
|
---|
I bibliografiska kataloger |
|
---|