Theil–Sen Estimator funktion

I icke-parametrisk statistik finns det en metod för robust linjär utjämning av en uppsättning punkter ( enkel linjär regression ) där medianen för lutningarna för alla linjer som passerar genom par av provpunkter i planet väljs. Metoden kallas Theil-Sen estimator , Slope Sen estimator [1] [2] , Slope selection [3] [4] , One-median method [5] , Kendalls Robust Line Approximation method [6] [7] ochrobust Kendall-Theil-linje [8] . Metoden är uppkallad efter Henri Theil och Pranab K. Sen, som publicerade artiklar om metoden 1950 respektive 1968, och även efter Maurice Kendall .

Denna estimator kan beräknas effektivt och är okänslig för extremvärden . Det kan vara betydligt mer exakt än icke-robusta minsta kvadrater för icke- symmetriska och heteroskedastiska data och konkurrerar bra med icke-robusta minsta kvadrater även för normalfördelade data när det gäller statistisk styrka [9] . Metoden är erkänd som "den mest populära icke-parametriska tekniken för att uppskatta en linjär trend" [2] .

Definition

Som Theil [10] definierat är Theil -Sen-uppskattaren för en uppsättning punkter i planet ( x i , y i )  medianen av m lutningskoefficienter ( y jy i )/( x jx i ) över alla par av provpunkter. Sen [11] utökade denna definition för att hantera fallet där två punkter har samma x -koordinater . Enligt Sens definition tas medianen av lutningskoefficienterna endast över par av punkter som har olika x -koordinater .

När lutningen m har beräknats kan man bestämma linjen från provpunkterna genom att välja punkten b för y - axelns skärning lika med medianen för värdena y imx i [12] . Som Sen noterade är detta en estimator som gör Kendalls τ-rank korrelationskoefficient för att jämföra x i med resten av den i: te observationen ungefär lika med noll [13] .

Konfidensintervallet för att uppskatta lutningsvinkeln kan definieras som intervallet som innehåller medelvärdet av 95 % av lutningskoefficienterna för linjerna som passerar genom punktparen [14] , och kan snabbt uppskattas genom att sampla paren och bestämma 95 % intervall av de samplade lutningskoefficienterna. Enligt numeriska simuleringar är ett prov på cirka 600 par av punkter tillräckligt för att bestämma ett exakt konfidensintervall [9] .

Variationer

För varje provpunkt ( x i , y i ) är medianen mi för lutningskoefficienterna ( y j y i ) / ( x j x i ) för de räta linjerna som går genom denna punkt, och då är den totala kostnadsfunktionen beräknas som medianen för dessa medianer.

Ett annat alternativ väljer par av sampelpunkter efter rangordningen av deras x -koordinater (punkten med den minsta koordinaten väljs i paret, den första punkten ovanför mediankoordinaten, etc.), sedan lutningskoefficienterna för linjerna som definieras av dessa poängpar beräknas [16] .

Varianter av Theil-Sen-estimatorn baserade på viktade medianer studeras också , baserat på principen att par av sampel vars x - koordinater skiljer sig mer är mer benägna att ha en mer exakt lutning och därför bör ha en större vikt [17]

För säsongsdata kan det vara lämpligt att jämna ut säsongsvariablerna i data genom att välja par av provpunkter som tillhör samma månad eller samma årstid och sedan beräkna medianen för lutningskoefficienterna för de definierade linjerna. av dessa begränsade par [18] .

Statistiska egenskaper

Theil-Sen-estimatorn är en opartisk uppskattning av den sanna lutningen i enkel linjär regression [19] [20] . För många icke-slumpmässiga felfördelningar har denna estimator en hög asymptotisk effektivitet i förhållande till minsta kvadratmetoden [21] [22] . Estimatorer med dålig prestanda kräver mer oberoende observationer för att uppnå samma varians som effektiva opartiska skattare.

Theil -Sen-uppskattaren är mer robust än skattaren för minsta kvadrater eftersom den är betydligt mer robust mot extremvärden . Den har ett tröskelvärde , vilket betyder att den kan tolerera upp till 29,3 % av indata utan att minska noggrannheten [12] . Tröskeln minskar dock för flerdimensionella generaliseringar av metoden [23] . En högre tröskel, 50 %, är tillgänglig för en annan robust linjär skattare, Siegels upprepade medianestimator [12] .

Theil-Sen-poängfunktionen är ekvivariant för alla linjära transformationer av dess svarsvariabler, vilket innebär att datatransformation följt av en poänglinje och en rät linje följt av datatransformation leder till samma resultat [24] . Emellertid är estimatorn inte ekvivariant under samtidig affin transformation av både prediktor- och svarsvariabler [23] .

Algoritmer

Medianen för lutningen för en uppsättning av n sampelpunkter kan beräknas exakt genom att beräkna alla O ( n 2 ) linjer genom punktparen och använda en linjär tidsalgoritm för att välja medianen . Alternativt kan värdet uppskattas genom sampling av poängpar. Problemet motsvarar, enligt projektiv dualitet , problemet med att hitta skärningspunkten för en konfiguration av linjer som innehåller medianen x för koordinater mellan alla sådana skärningspunkter. [25]

Problemet med att välja lutningsfaktorn exakt men mer effektivt än brute kvadratisk uppräkning har studerats omfattande i beräkningsgeometri . Vissa andra metoder är kända för exakt beräkning av Theil-Sen-estimatorn i O ( n log n ) tid, antingen deterministiskt [3] eller med hjälp av probabilistiska algoritmer [4] . Den upprepade median Siegel uppskattning kan också konstrueras effektivt på samma tid [26] . I beräkningsmodeller där ingångskoordinaterna är heltal och bitoperationer på heltal tar konstant tid, kan problemet lösas ännu snabbare, med förväntan på beräkningstiden [27] .

En lutningskoefficientestimator med en ungefärlig medianrankning som har samma tröskel som Theil-Sen-estimatorn kan erhållas i en strömmande datamodell (där provpunkterna bearbetas av algoritmen en efter en och algoritmen inte har tillräckligt med minne för att permanent lagra alla datamängder) med hjälp av en algoritm baserad på ε-nätverk [28] .

Applikationer

Theil-Sen-estimatorn har använts inom astronomi på grund av förmågan att arbeta med censurerade regressionsmodeller [29] . Fernandez och Leblanc föreslog att det skulle användas inom biofysiken [30] av fjärranalys, såsom uppskattning av lövytan genom reflektansmätning, på grund av "enkelhet i beräkningen, analytisk konfidensintervalluppskattning, robusthet med avseende på extremvärden, verifierbara antaganden om fel och ... begränsad a priori information om felmätningar". För mätning av säsongsbetonade miljödata såsom vattenkvalitet , har Theil-Sen säsongsuppskattning föreslagits vara överlägsen minsta kvadratmetoden eftersom den ger bättre noggrannhet i fallet med skeva data [18] . Inom datavetenskap har Theil-Sen-metoden använts för att uppskatta trenden med föråldrad programvara [31] . En annan tillämpning av Theil-Sen-testet är inom meteorologi och klimatologi [32] , där det används för att uppskatta stabila trender i vindriktning och hastighet.

Se även

Anteckningar

  1. Gilbert, 1987 .
  2. 1 2 El-Shaarawi, Piegorsch, 2001 .
  3. 1 2 Cole, Salowe, Steiger, Szemerédi, 1989 ; Katz, Sharir, 1993 ; Brönnimann, Chazelle, 1998 .
  4. 1 2 Dillencourt, Mount, Netanyahu, 1992 ; Matousek, 1991 ; Blunck, Vahrenhold, 2006 .
  5. Massart, Vandeginste, et al., 1997 .
  6. Sokal, Rohlf, 1995 .
  7. Dytham, 2011 .
  8. Granato, 2006 .
  9. 12 Wilcox , 2001 .
  10. Theil, 1950 .
  11. Sen, 1968 .
  12. 1 2 3 Rousseeuw, Leroy, 2003 , sid. 67, 164.
  13. Osborne, 2008 .
  14. För att bestämma konfidensintervall måste par av punkter backsamplas . Detta innebär att uppsättningen av par som används i denna beräkning inkluderar exakt matchande par. Dessa par lämnas alltid utanför konfidensintervallet eftersom de inte definierar någon specifik lutningsfaktor, men om man tar hänsyn till dem i beräkningen blir konfidensintervallet bredare.
  15. Siegel, 1982 .
  16. De Muth, 2006 .
  17. Jaeckel, 1972 ; Scholz, 1978 ; Sievers, 1978 ; Birkes, Dodge, 1993 .
  18. 1 2 Hirsch, Slack, Smith, 1982 .
  19. Sen, 1968 , sid. 1384 Sats 5.1.
  20. Wang, Yu, 2005 .
  21. Sen, 1968 , sid. Avsnitt 6.
  22. Wilcox, 1998 .
  23. 12 Wilcox , 2005 .
  24. Sen, 1968 , sid. 1383.
  25. Cole, Salowe, Steiger, Szemerédi, 1989 .
  26. Matoušek, Mount, Netanyahu, 1998 .
  27. Chan, Pătraşcu, 2010 .
  28. Bagchi, Chaudhary, Eppstein, Goodrich, 2007 .
  29. Akritas, Murphy, LaValley, 1995 .
  30. Fernandes, Leblanc, 2005 .
  31. Vaidyanathan, Trivedi, 2005 .
  32. Romanić, Ćurić, Jovičić, Lompar, 2015 , sid. 288-302.

Litteratur

Länkar