Icke-parametrisk statistik

Icke-parametrisk statistik är en gren av statistik som inte enbart är baserad på parametriserade familjer av sannolikhetsfördelningar (allmänt kända exempel på parametrar är medelvärdet och variansen). Icke-parametrisk statistik inkluderar beskrivande statistik och statistisk slutledning .

Definitioner

Statistikern Larry Wasserman sa: "Det är svårt att ge en tydlig definition av icke-parametrisk statistik." [1] Termen "icke-parametrisk statistik" kan definieras löst, bland annat på följande två sätt.

Den första betydelsen av icke- parametrisk omfattar metoder som inte förlitar sig på data relaterade till någon speciell distribution. Bland annat inkluderar de:
- Fördelningsfria metoder som inte förlitar sig på antagandet att urvalet är hämtat från vissa sannolikhetsfördelningar . Sådan icke-parametrisk statistik är motsatsen till parametrisk statistik . Metoder inkluderar deskriptiv statistik , statistiska modeller och slutledningar , statistisk hypotesprövning .
- En icke-parametrisk statistik (i betydelsen av en statistik över data som definieras som en funktion av urvalet och inte beror på parametern ) vars tolkning inte beror på populationen som motsvarar eventuella parametriserade fördelningar. Ordinalstatistik , baserad på raden av observationer, är ett exempel på sådan statistik och spelar en central roll i många icke-parametriska tillvägagångssätt.
Följande resonemang är hämtat från Kendalls Advanced Theory of Statistics . [2]

Statistiska hypoteser uppmärksammar beteendet hos observerade slumpvariabler ... Till exempel hypotesen (a) att normalfördelningen har en viss matematisk förväntan och dess varians är statistisk; hypotes (b) - att den matematiska förväntan är given, variansen är inte given; hypotes (c) - att fördelningen har en normal form, den matematiska förväntan och variansen är inte specificerade; slutligen, hypotes (d), de två okända kontinuerliga fördelningarna sammanfaller.
Observera att i exemplen (a) och (b) definierades fördelningen som låg bakom observationerna som normalfördelningen, och hypotesen var helt associerad med värdet av en eller båda parametrarna. En sådan hypotes kallas av förklarliga skäl parametrisk.
Hypotes (c) har en annan karaktär, eftersom parametrarnas värden inte anges i formuleringen av hypotesen; en sådan hypotes kan rimligen kallas icke-parametrisk. Hypotes (d) är också icke-parametrisk, men dessutom bestämmer den inte ens typen av distribution och kan kallas distributionsfri. Trots dessa skillnader betecknar den statistiska litteraturen vanligtvis "icke-parametriska" metoderna vi just har kallat "distributionsfria", och bryter därmed ner en användbar klassificering.
Den andra betydelsen av icke- parametrisitet omfattar metoder som inte förutsätter att modellens struktur är fixerad. Vanligtvis ökar modellens storlek med dataernas komplexitet. Dessa metoder förutsätter att enskilda variabler tillhör parametriska fördelningar och gör antaganden om typerna av samband mellan variabler. Dessa metoder inkluderar bland annat:
- icke- parametrisk regression - modellering, genom vilken strukturen av relationen mellan variabler betraktas icke-parametriskt. Det kan dock finnas parametriska antaganden om fördelningen av modellresidualer.
- icke-parametriska hierarkiska Bayesianska modeller , såsom de baserade på Dirichlet-processen , som tillåter antalet latenta variabler att växa efter behov för att passa data. Individuella variabler kan emellertid vara föremål för parametriska fördelningar, och till och med processen som kontrollerar tillväxthastigheten för latenta variabler är föremål för en parametrisk fördelning.

Syfte och tillämpningar

Icke-parametriska metoder används ofta för att studera populationer som accepterar rankad ordning (till exempel filmrecensioner, som kan få mellan en och fyra stjärnor). Användning av icke-parametriska metoder kan vara nödvändig när data har en rangordning men inte har en tydlig numerisk tolkning, till exempel i preferensuppskattning . När det gäller skalor är resultaten av icke-parametriska metoder ordinaldata .

Eftersom icke-parametriska metoder gör färre antaganden, är deras räckvidd mycket bredare än parametriska metoder. I synnerhet kan de tillämpas i situationer där det finns mindre information om själva ansökan. Också, eftersom de beror på färre antaganden, är icke-parametriska metoder mer tillförlitliga .

Ett annat skäl för att använda icke-parametriska metoder är deras enkelhet. I vissa fall, även där användningen av parametriska metoder är motiverad, kan det vara lättare att använda icke-parametriska metoder. På grund av de skäl som anges ovan anses icke-parametriska metoder av vissa statistiker vara mindre benägna att missförstås och missbrukas.

Den bredare tillämpbarheten och ökade robustheten (tillförlitligheten) hos icke-parametriska metoder har en kostnad: i fall där en parametrisk metod är lämplig har de icke-parametriska mindre statistisk styrka . Med andra ord kan det krävas en större urvalsstorlek för att dra slutsatser med samma tillförsikt .

Icke-parametriska modeller

Icke-parametriska modeller skiljer sig från parametriska modeller genom att modellens struktur inte ges a priori , utan bestäms av data. Termen icke- parametrisk betyder inte fullständig frånvaro av parametrar. Det är bara det att deras antal och karaktär är flexibla och inte fastställda i förväg.

Ett histogram är en enkel icke-parametrisk uppskattning av en sannolikhetsfördelning.
Kärndensitetsuppskattningen ger bättre densitetsuppskattningar än histogram.
Metoder för icke- parametrisk regression och semi- parametrisk regression utvecklas på basis av kärnor , splines och wavelets .
Analysen av driftsmiljön ger effektivitetsförhållanden nära de som erhålls genom multivariat analys utan några antaganden om fördelningarna.
Metoden -nearest neighbors klassificerar en osynlig instans i träningsuppsättningen utifrån punkterna närmast den. $k$ $k$
Stödvektormaskinen (med Gaussisk kärna) är en icke-parametrisk storfältsklassificerare.

Metoder

Icke- parametriska (eller distributionsfria ) statistiska slutledningsmetoder är matematiska procedurer för att testa statistiska hypoteser som, till skillnad från parametrisk statistik , inte gör några antaganden om sannolikhetsfördelningarna för de variabler som uppskattas. Sådana metoder kallas icke-parametriska statistiska tester . De vanligaste kriterierna inkluderar:

Likhetsanalys : testar den statistiska signifikansen av skillnaden mellan grupper av prover
Anderson-Darling test: kontrollerar om det analyserade provet tillhör en given distributionslag
Bootstrap : låter dig enkelt och snabbt utvärdera olika statistik för komplexa modeller
Friedman-kriterium : används för att studera påverkan av olika faktorvärden (faktorgrader) på samma urval
Kaplan-Meier estimator : uppskattar överlevnadsfunktionen från livstidsdata
Kendalls tau : mäter det statistiska sambandet mellan två variabler
Kendall's W : En icke-parametrisk statistik som mäter graden av likhet mellan två rankningar och kan användas för att utvärdera betydelsen av ett samband mellan dem
Två-prov Kolmogorov-Smirnov- test: används för att testa hypotesen att två oberoende prov tillhör samma distributionslag
Kruskal-Wallis variansanalys : testar hypotesen om huruvida de jämförda proverna har samma fördelning eller fördelningar med samma median
Kuiper goodness-of-fit- test: används för att testa om en given distribution eller familj av distributioner inte är förenlig med dataexempelfunktioner
Log-rank (log-rank) test : jämförelse av överlevnadsfördelningar för två prover
Mann-Whitney U-test : används för att bedöma skillnaden mellan två oberoende prover i termer av nivån på någon egenskap, mätt kvantitativt
McNemars chi-kvadrattest : testar om flera jämförda variabler skiljer sig signifikant eller inte, med värden på 0/1
Mediantest : testar hypotesen att fördelningarna av två prover har samma form och skiljer sig endast genom en förskjutning med en konstant
Pitman-permutationstest (omsampling) : ett statistiskt signifikanstest som ger exakta P-värden genom att undersöka alla möjliga etikettpermutationer
Siegel-Tookey test: test för skillnader i skala mellan två grupper
Teckentest : används i situationer där två mätningar (till exempel under olika förhållanden) av samma försökspersoner måste testas för närvaro eller frånvaro av skillnad i resultat
Spearmans rangkorrelationskoefficient : används för att mäta ett icke-linjärt monotont samband mellan variabler
Rangkvadrattest : test för varianslikhet i två eller flera urval
Tukey-Duckworth- test: testar om ett av två prover var signifikant större än det andra
Wald-Wolfowitz serietest: testar om elementen i en sekvens är ömsesidigt oberoende/slumpmässiga
Wilcoxon -test: används för att testa för skillnader mellan två prover av parade mätningar

Historik

Bland den tidiga icke-parametriska statistiken finns medianen (1200-talet eller tidigare, använd i Edward Wrights uppskattning , 1599) och John Arbuthnots teckentest (1710) för att analysera en persons könsförhållande vid födseln. [3]

Anteckningar

↑ Wasserman (2007), s.1
↑ Stuart A., Ord JK, Arnold S. (1999), Kendall's Advanced Theory of Statistics: Volume 2A—Classical Inference and the Linear Model , sjätte upplagan, §20.2–20.3 ( Arnold ).
↑ Conover, WJ (1999), Kapitel 3.4: The Sign Test, Practical Nonparametric Statistics (tredje upplagan), Wiley, sid. 157–176, ISBN 0-471-16068-7

Litteratur

Bagdonavicius, V., Kruopis, J., Nikulin, MS (2011). "Icke-parametriska tester för fullständig data", ISTE & WILEY: London & Hoboken. ISBN 978-1-84821-269-5 .
Corder, GW; Foreman, DI Icke-parametrisk statistik: ett steg-för-steg tillvägagångssätt . - Wiley, 2014. - ISBN 978-1118840313 .
Jean Gibbons; Chakraborti, Subhabrata (2003). Nonparametric Statistical Inference , 4th Ed. C.R.C. Tryck. ISBN 0-8247-4052-1 .
Hettmansperger, T. P.; McKean, J.W. Robusta icke-parametriska statistiska metoder (obestämd) . - Först. — London: Edward Arnold, 1998. - V. 5. - (Kendall's Library of Statistics). — ISBN 0-340-54937-8 . även ISBN 0-471-19479-4 .
Hollander M., Wolfe D. A., Chicken E. (2014). Nonparametric Statistical Methods , John Wiley & Sons.
Sheskin, David J. (2003) Handbok för parametriska och icke-parametriska statistiska förfaranden . C.R.C. Tryck. ISBN 1-58488-440-1
Wasserman, Larry (2007). All icke-parametrisk statistik , Springer. ISBN 0-387-25145-6 .
Orlov AI Tillämpad statistisk analys: lärobok. - M .: AI Pi Ar Media, 2022. - 812 sid. — ISBN 978-5-4497-1480-0 [1]

Ordböcker och uppslagsverk	Stor ryss Britannica (online) Britannica (online)
I bibliografiska kataloger	BNF : 11933314q J9U : 987007533975505171 LCCN : sh85092349