Theil–Sen Estimator funktion
I icke-parametrisk statistik finns det en metod för robust linjär utjämning av en uppsättning punkter ( enkel linjär regression ) där medianen för lutningarna för alla linjer som passerar genom par av provpunkter i planet väljs. Metoden kallas Theil-Sen estimator , Slope Sen estimator [1] [2] , Slope selection [3] [4] , One-median method [5] , Kendalls Robust Line Approximation method [6] [7] ochrobust Kendall-Theil-linje [8] . Metoden är uppkallad efter Henri Theil och Pranab K. Sen, som publicerade artiklar om metoden 1950 respektive 1968, och även efter Maurice Kendall .
Denna estimator kan beräknas effektivt och är okänslig för extremvärden . Det kan vara betydligt mer exakt än icke-robusta minsta kvadrater för icke- symmetriska och heteroskedastiska data och konkurrerar bra med icke-robusta minsta kvadrater även för normalfördelade data när det gäller statistisk styrka [9] . Metoden är erkänd som "den mest populära icke-parametriska tekniken för att uppskatta en linjär trend" [2] .
Definition
Som Theil [10] definierat är Theil -Sen-uppskattaren för en uppsättning punkter i planet ( x i , y i ) medianen av m lutningskoefficienter ( y j − y i )/( x j − x i ) över alla par av provpunkter. Sen [11] utökade denna definition för att hantera fallet där två punkter har samma x -koordinater . Enligt Sens definition tas medianen av lutningskoefficienterna endast över par av punkter som har olika x -koordinater .
När lutningen m har beräknats kan man bestämma linjen från provpunkterna genom att välja punkten b för y - axelns skärning lika med medianen för värdena y i − mx i [12] . Som Sen noterade är detta en estimator som gör Kendalls τ-rank korrelationskoefficient för att jämföra x i med resten av den i: te observationen ungefär lika med noll [13] .
Konfidensintervallet för att uppskatta lutningsvinkeln kan definieras som intervallet som innehåller medelvärdet av 95 % av lutningskoefficienterna för linjerna som passerar genom punktparen [14] , och kan snabbt uppskattas genom att sampla paren och bestämma 95 % intervall av de samplade lutningskoefficienterna. Enligt numeriska simuleringar är ett prov på cirka 600 par av punkter tillräckligt för att bestämma ett exakt konfidensintervall [9] .
Variationer
För varje provpunkt ( x i , y i ) är medianen mi för lutningskoefficienterna ( y j − y i ) / ( x j − x i ) för de räta linjerna som går genom denna punkt, och då är den totala kostnadsfunktionen beräknas som medianen för dessa medianer.
Ett annat alternativ väljer par av sampelpunkter efter rangordningen av deras x -koordinater (punkten med den minsta koordinaten väljs i paret, den första punkten ovanför mediankoordinaten, etc.), sedan lutningskoefficienterna för linjerna som definieras av dessa poängpar beräknas [16] .
Varianter av Theil-Sen-estimatorn baserade på viktade medianer studeras också , baserat på principen att par av sampel vars x - koordinater skiljer sig mer är mer benägna att ha en mer exakt lutning och därför bör ha en större vikt [17]
För säsongsdata kan det vara lämpligt att jämna ut säsongsvariablerna i data genom att välja par av provpunkter som tillhör samma månad eller samma årstid och sedan beräkna medianen för lutningskoefficienterna för de definierade linjerna. av dessa begränsade par [18] .
Statistiska egenskaper
Theil-Sen-estimatorn är en opartisk uppskattning av den sanna lutningen i enkel linjär regression [19] [20] . För många icke-slumpmässiga felfördelningar har denna estimator en hög asymptotisk effektivitet i förhållande till minsta kvadratmetoden [21] [22] . Estimatorer med dålig prestanda kräver mer oberoende observationer för att uppnå samma varians som effektiva opartiska skattare.
Theil -Sen-uppskattaren är mer robust än skattaren för minsta kvadrater eftersom den är betydligt mer robust mot extremvärden . Den har ett tröskelvärde , vilket betyder att den kan tolerera upp till 29,3 % av indata utan att minska noggrannheten [12] . Tröskeln minskar dock för flerdimensionella generaliseringar av metoden [23] . En högre tröskel, 50 %, är tillgänglig för en annan robust linjär skattare, Siegels upprepade medianestimator [12] .

Theil-Sen-poängfunktionen är ekvivariant för alla linjära transformationer av dess svarsvariabler, vilket innebär att datatransformation följt av en poänglinje och en rät linje följt av datatransformation leder till samma resultat [24] . Emellertid är estimatorn inte ekvivariant under samtidig affin transformation av både prediktor- och svarsvariabler [23] .
Algoritmer
Medianen för lutningen för en uppsättning av n sampelpunkter kan beräknas exakt genom att beräkna alla O ( n 2 ) linjer genom punktparen och använda en linjär tidsalgoritm för att välja medianen . Alternativt kan värdet uppskattas genom sampling av poängpar. Problemet motsvarar, enligt projektiv dualitet , problemet med att hitta skärningspunkten för en konfiguration av linjer som innehåller medianen x för koordinater mellan alla sådana skärningspunkter. [25]
Problemet med att välja lutningsfaktorn exakt men mer effektivt än brute kvadratisk uppräkning har studerats omfattande i beräkningsgeometri . Vissa andra metoder är kända för exakt beräkning av Theil-Sen-estimatorn i O ( n log n ) tid, antingen deterministiskt [3] eller med hjälp av probabilistiska algoritmer [4] . Den upprepade median Siegel uppskattning kan också konstrueras effektivt på samma tid [26] . I beräkningsmodeller där ingångskoordinaterna är heltal och bitoperationer på heltal tar konstant tid, kan problemet lösas ännu snabbare, med förväntan på beräkningstiden [27] .

En lutningskoefficientestimator med en ungefärlig medianrankning som har samma tröskel som Theil-Sen-estimatorn kan erhållas i en strömmande datamodell (där provpunkterna bearbetas av algoritmen en efter en och algoritmen inte har tillräckligt med minne för att permanent lagra alla datamängder) med hjälp av en algoritm baserad på ε-nätverk [28] .
Applikationer
Theil-Sen-estimatorn har använts inom astronomi på grund av förmågan att arbeta med censurerade regressionsmodeller [29] . Fernandez och Leblanc föreslog att det skulle användas inom biofysiken [30] av fjärranalys, såsom uppskattning av lövytan genom reflektansmätning, på grund av "enkelhet i beräkningen, analytisk konfidensintervalluppskattning, robusthet med avseende på extremvärden, verifierbara antaganden om fel och ... begränsad a priori information om felmätningar". För mätning av säsongsbetonade miljödata såsom vattenkvalitet , har Theil-Sen säsongsuppskattning föreslagits vara överlägsen minsta kvadratmetoden eftersom den ger bättre noggrannhet i fallet med skeva data [18] . Inom datavetenskap har Theil-Sen-metoden använts för att uppskatta trenden med föråldrad programvara [31] . En annan tillämpning av Theil-Sen-testet är inom meteorologi och klimatologi [32] , där det används för att uppskatta stabila trender i vindriktning och hastighet.
Se även
- Regression utspädning , ett annat problem med uppskattning av lutningstrend
Anteckningar
- ↑ Gilbert, 1987 .
- ↑ 1 2 El-Shaarawi, Piegorsch, 2001 .
- ↑ 1 2 Cole, Salowe, Steiger, Szemerédi, 1989 ; Katz, Sharir, 1993 ; Brönnimann, Chazelle, 1998 .
- ↑ 1 2 Dillencourt, Mount, Netanyahu, 1992 ; Matousek, 1991 ; Blunck, Vahrenhold, 2006 .
- ↑ Massart, Vandeginste, et al., 1997 .
- ↑ Sokal, Rohlf, 1995 .
- ↑ Dytham, 2011 .
- ↑ Granato, 2006 .
- ↑ 12 Wilcox , 2001 .
- ↑ Theil, 1950 .
- ↑ Sen, 1968 .
- ↑ 1 2 3 Rousseeuw, Leroy, 2003 , sid. 67, 164.
- ↑ Osborne, 2008 .
- ↑ För att bestämma konfidensintervall måste par av punkter backsamplas . Detta innebär att uppsättningen av par som används i denna beräkning inkluderar exakt matchande par. Dessa par lämnas alltid utanför konfidensintervallet eftersom de inte definierar någon specifik lutningsfaktor, men om man tar hänsyn till dem i beräkningen blir konfidensintervallet bredare.
- ↑ Siegel, 1982 .
- ↑ De Muth, 2006 .
- ↑ Jaeckel, 1972 ; Scholz, 1978 ; Sievers, 1978 ; Birkes, Dodge, 1993 .
- ↑ 1 2 Hirsch, Slack, Smith, 1982 .
- ↑ Sen, 1968 , sid. 1384 Sats 5.1.
- ↑ Wang, Yu, 2005 .
- ↑ Sen, 1968 , sid. Avsnitt 6.
- ↑ Wilcox, 1998 .
- ↑ 12 Wilcox , 2005 .
- ↑ Sen, 1968 , sid. 1383.
- ↑ Cole, Salowe, Steiger, Szemerédi, 1989 .
- ↑ Matoušek, Mount, Netanyahu, 1998 .
- ↑ Chan, Pătraşcu, 2010 .
- ↑ Bagchi, Chaudhary, Eppstein, Goodrich, 2007 .
- ↑ Akritas, Murphy, LaValley, 1995 .
- ↑ Fernandes, Leblanc, 2005 .
- ↑ Vaidyanathan, Trivedi, 2005 .
- ↑ Romanić, Ćurić, Jovičić, Lompar, 2015 , sid. 288-302.
Litteratur
- D. Romanić, M. Ćurić, I. Jovičić, M. Lompar. Långsiktiga trender för 'Koshava'-vinden under perioden 1949–2010. // International Journal of Climatology. - 2015. - T. 35 , nr. 2 . - S. 288-302 . - doi : 10.1002/joc.3981 .
- Michael G. Akritas, Susan A. Murphy, Michael P. LaValley. Theil-Sen-skattaren med dubbelt censurerad data och applikationer för astronomi // Journal of the American Statistical Association. - 1995. - T. 90 , nr. 429 . — S. 170–177 . - doi : 10.1080/01621459.1995.10476499 . — .
- Amitabha Bagchi, Amitabh Chaudhary, David Eppstein, Michael T. Goodrich. Deterministisk sampling och räckviddsräkning i geometriska dataströmmar // ACM Transactions on Algorithms. - 2007. - Vol. 3 , nummer. 2 . - C. Art. Nej. 16 . - doi : 10.1145/1240233.1240239 . - arXiv : cs/0307027 .
- David Birkes, Yadolah Dodge. Alternativa metoder för regression. - Wiley-Interscience, 1993. - T. 282. - S. 113-118. - (Wiley-serien i sannolikhet och statistik). — ISBN 978-0-471-56881-0 .
- Henrik Blunck, Jan Vahrenhold. Internationellt symposium om algoritmer och komplexitet. - Berlin: Springer-Verlag, 2006. - T. 3998. - S. 30-41. — (Föreläsningsanteckningar i datavetenskap). — ISBN 978-3-540-34375-2 . - doi : 10.1007/11758471_6 .
- Hervé Brönnimann, Bernard Chazelle. Optimalt val av lutning via skärningar // Computational Geometry Theory and Applications . - 1998. - T. 10 , nr. 1 . — S. 23–29 . - doi : 10.1016/S0925-7721(97)00025-4 .
- Timothy M. Chan, Mihai Pătraşcu. Proceedings of the Twenty-First Annual ACM-SIAM Symposium on Discrete Algorithms (SODA '10). - 2010. - S. 161-173.
- Richard Cole, Jeffrey S. Salowe, WL Steiger, Endre Szemerédi . En optimal tidsalgoritm för val av lutning // SIAM Journal on Computing . - 1989. - T. 18 , nr. 4 . — S. 792–810 . - doi : 10.1137/0218055 .
- E. James De Muth. Grundläggande statistik och farmaceutiska statistiska tillämpningar. — 2:a. - CRC Press, 2006. - Vol 16. - (Biostatistik). — ISBN 978-0-8493-3799-4 .
- Michael B. Dillencourt, David Mount, Nathan Netanyahu. En randomiserad algoritm för val av lutning // International Journal of Computational Geometry & Applications. - 1992. - Vol. 2 , nummer. 1 . — S. 1–27 . - doi : 10.1142/S0218195992000020 .
- Calvin Dytham. Att välja och använda statistik: En Biologs guide. — 3:a. - John Wiley and Sons, 2011. - ISBN 978-1-4051-9839-4 .
- Abdel H. El-Shaarawi, Walter W. Piegorsch. Encyclopedia of Environmetrics, Volym 1. - John Wiley and Sons, 2001. - ISBN 978-0-471-89997-6 .
- Richard Fernandes, Sylvain G. Leblanc. Parametriska (modifierade minsta kvadrater) och icke-parametriska (Theil–Sen) linjära regressioner för att förutsäga biofysiska parametrar i närvaro av mätfel // Remote Sensing of Environment. - 2005. - T. 95 , nr. 3 . — S. 303–316 . - doi : 10.1016/j.rse.2005.01.005 .
- Richard O. Gilbert. Statistiska metoder för övervakning av miljöföroreningar. - John Wiley and Sons, 1987. - S. 217-219. — ISBN 978-0-471-28878-7 .
- Gregory E. Granato. Kendall-Theil Robust Line (KTRLine--version 1.0)-Ett visuellt grundprogram för att beräkna och rita robusta icke-parametriska uppskattningar av linjär-regressionskoefficienter mellan två kontinuerliga variabler. - US Geological Survey, 2006. - S. 31 med CD-ROM. — (Techniques and Methods of the US Geological Survey, bok 4, kap. A7).
- Robert M. Hirsch, James R. Slack, Richard A. Smith. Tekniker för trendanalys för månatliga vattenkvalitetsdata // Vattenresursforskning. - 1982. - T. 18 , nr. 1 . — S. 107–121 . - doi : 10.1029/WR018i001p00107 . - .
- Louis A. Jaeckel. Uppskattning av regressionskoefficienter genom att minimera spridningen av residualerna // Annals of Mathematical Statistics. - 1972. - T. 43 , nr. 5 . - S. 1449-1458 . - doi : 10.1214/aoms/1177692377 .
- Matthew J. Katz, Micha Sharir. Optimalt lutningsval via expander // Information Processing Letters . - 1993. - T. 47 , nr. 3 . — S. 115–122 . - doi : 10.1016/0020-0190(93)90234-Z .
- DL Massart, BGM Vandeginste, LMC Buydens, S. De Jong, PJ Lewi, J. Smeyers-Verbeke. Handbook of Chemometrics and Qualimetrics: Del A. - Elsevier, 1997. - Vol. 20A. — S. 355–356. — (Datahantering inom vetenskap och teknik). - ISBN 978-0-444-89724-4 .
- Jiri Matousek. Randomiserad optimal algoritm för val av lutning // Information Processing Letters . - 1991. - T. 39 , nr. 4 . — S. 183–187 . - doi : 10.1016/0020-0190(91)90177-J .
- Jiří Matoušek, David M. Mount, Nathan S. Netanyahu. Effektiva randomiserade algoritmer för den upprepade medianlinjeestimatorn // Algorithmica . - 1998. - T. 20 , nr. 2 . — S. 136–150 . - doi : 10.1007/PL00009190 .
- Jason W. Osborne. Bästa metoder för kvantitativa metoder. - Sage Publications, Inc., 2008. - ISBN 9781412940658 .
- Peter Rousseeuw, Annick M. Leroy. Robust regression och avvikande upptäckt. - Wiley, 2003. - V. 516. - (Wiley Series in Probability and Mathematical Statistics). — ISBN 978-0-471-48855-2 .
- Friedrich-Wilhelm Scholz. Viktade medianregressionsuppskattningar // The Annals of Statistics. - 1978. - T. 6 , nr. 3 . — S. 603–609 . - doi : 10.1214/aos/1176344204 . — .
- Pranab Kumar Sen. Uppskattningar av regressionskoefficienten baserade på Kendalls tau. — Journal of the American Statistical Association . - 1968. - T. 63. - S. 1379-1389. - doi : 10.2307/2285891 .
- Andrew F. Siegel Robust regression med upprepade medianer // Biometrika. - 1982. - T. 69 , nr. 1 . — S. 242–244 . - doi : 10.1093/biomet/69.1.242 .
- Gerald L. Sievers. Viktad rankstatistik för enkel linjär regression // Journal of the American Statistical Association. - 1978. - T. 73 , nr. 363 . — S. 628–631 . - doi : 10.1080/01621459.1978.10480067 . — .
- Robert R. Sokal, F. James Rohlf. Biometri: Principerna och praktiken för statistik inom biologisk forskning. - Macmillan, 1995. - ISBN 978-0-7167-2411-7 .
- H. Theil. En ranginvariant metod för linjär och polynom regressionsanalys. I, II, III // Nederl. Akad. Wetensch., Proc.. - 1950. - T. 53 . — S. 386–392, 521–525, 1397–1412 . .
- Kalyanaraman Vaidyanathan, Kishor S. Trivedi. En omfattande modell för mjukvaruföryngring // IEEE-transaktioner på pålitlig och säker datoranvändning. - 2005. - Vol. 2 , nummer. 2 . — S. 124–137 . - doi : 10.1109/TDSC.2005.15 .
- Xueqin Wang, Qiqing Yu. Theil–Sen-skattarens opartiskhet // Journal of Nonparametric Statistics. - 2005. - T. 17 , nr. 6 . — S. 685–695 . - doi : 10.1080/10485250500039452 .
- Rand R. Wilcox. En notering om Theil–Sen-regressionskalkylatorn när regressorn är slumpmässig och feltermen är heteroskedastisk // Biometrical Journal. - 1998. - T. 40 , nr. 3 . — S. 261–268 . - doi : 10.1002/(SICI)1521-4036(199807)40:3<261::AID-BIMJ261>3.0.CO;2-V .
- Rand R. Wilcox. Grunderna i moderna statistiska metoder: avsevärt förbättra kraft och noggrannhet. - Springer-Verlag, 2001. - S. 207-210. — ISBN 978-0-387-95157-7 .
- Rand R. Wilcox. Introduktion till robust uppskattning och hypotestestning . - Academic Press, 2005. - S. 423-427 . — ISBN 978-0-12-751542-7 .
Länkar