Bootstrap (statistik)

Bootstrap [1] ( engelska bootstrap ) i statistik är en praktisk datormetod för att studera fördelningen av statistik över sannolikhetsfördelningar , baserad på multipelgenerering av sampel med Monte Carlo-metoden baserad på det befintliga urvalet [2] . Gör att du enkelt och snabbt kan utvärdera en mängd olika statistik ( konfidensintervall , varians , korrelation och så vidare) för komplexa modeller.

Konceptet introducerades 1977 av Bradley Efron (den första publikationen går tillbaka till 1979 [3] ). Kärnan i metoden är att bygga en empirisk fördelning utifrån det befintliga urvalet . Genom att använda denna fördelning som en teoretisk sannolikhetsfördelning är det möjligt att generera ett nästan obegränsat antal pseudosampler av godtycklig storlek, till exempel samma som den ursprungliga, med hjälp av en pseudo-slumptalsgenerator. På en uppsättning pseudosampler kan man utvärdera inte bara de analyserade statistiska egenskaperna, utan också studera deras sannolikhetsfördelningar. Således är det till exempel möjligt att uppskatta variansen eller kvantilerna för vilken statistik som helst, oavsett dess komplexitet. Denna metod är en metod för icke-parametrisk statistik .

Tillsammans med "jackknife"-metoderna utgör korsvalidering och permutationstestning ( eng. exakt test ) en klass av metoder för generering av omsampling ( eng. resampling ).

Etymologi

Ordet kommer från uttrycket: "Att dra sig över ett staket i sina stövlar." (bokstavligen - "att komma över stängslet genom att dra i remmarna på dina stövlar" (se bilden till höger). För rysktalande människor kommer historien om Baron Munchausen närmare , som drog sig i håret, drog sig och sin häst ur träsket.

Bootstrap anglicism i sig används inom många kunskapsområden, där du behöver förmedla innebörden av att få något "gratis" eller magiskt att få något värt ur ingenting. Inom statistikområdet är den närmaste analogen av termen i termer av etymologi "självdragande".

Inledande exempel

Låt det vara två observationer:

(x_{1},y_{1})=(1,1),\ (x_{2},y_{2})=(2,3)

Antag att vi behöver uppskatta en parameter i en regression av y på x :

{\displaystyle y_{i}=\theta x_{i}+\epsilon _{i))

Den parameteruppskattning som erhålls med minsta kvadratmetoden kommer att vara lika med

{\hat {\theta }}={\frac {x_{1}y_{1}+x_{2}y_{2}}{x_{1}^{2}+x_{2}^{ 2}}}={\frac {1\times 1+2\times 3}{1^{2}+2^{2}}}={\frac {7}{5}}

Den empiriska fördelningsfunktionen i detta fall är lika med

(x,y)'={\begin{cases}(1,1)',\quad p=1/2\\(2,3)',\quad p=1/2\\\end {fall}}

I det här fallet kommer data från två observationer med avseende på den empiriska fördelningen att fördelas enligt följande:

(x_{1},y_{1})',(x_{2},y_{2})'={\begin{cases}(1,1)',(1,1)',\ quad p=1/4\\(1,1)',(2,3)',\quad p=1/4\\(2,3)',(1,1)',\quad p=1 /4\\(2,3)',(2,3)',\quad p=1/4\\\end{cases}}

Detta är bootstrap-distributionen. Därefter kan vi hitta fördelningen av OLS-uppskattningen:

{\hat {\theta }}_{2}^{*}={\begin{cases}1,\quad \quad p=1/4\\7/5,\quad p=1/2 \\3/2,\quad p=1/4\\\end{cases}}

Applikation

Bootstrap används för att korrigera bias, testa hypoteser, bygga konfidensintervall.

Bootstrap Confidence Interval: An Algorithm

Låt det finnas ett urval från den allmänna populationen , och det krävs för att uppskatta parametern . Det är nödvändigt att välja antalet pseudo-prover som kommer att bildas från elementen i det ursprungliga provet med retur. För vart och ett av pseudo -samplen beräknas en pseudostatistik . $(z_{1};z_{2};\dots ;z_{n})$ $\theta$ $B$ $(z_{1}^{*};z_{2}^{*};\dots ;z_{n}^{*})_{b},b=1,2,\dots ,B$ ${\hat {\theta }}_{b}^{*}$

Pseudostatistik sorteras från minsta till största. Kvantiler tar värden . De används för att konstruera ett konfidensintervall. ${\hat {\theta }}_{1}^{*},{\hat {\theta}}_{2}^{*},\dots ,{\hat {\theta}}_{ B}^{*}$ $q_{\alpha _{1}}^{*},q_{1-\alpha _{2}}^{*}$ ${\hat {\theta }}_{[B\alpha _{1}]}^{*},{\hat {\theta}}_{[B(1-\alpha _{2}) +1]}^{*}$

Anteckningar

↑ Även bootstrap , bootstrap , bootstrapping , bootstrapping .
↑ アーカイブされたコピー. Hämtad 23 mars 2007. Arkiverad från originalet 12 juli 2012. (obestämd)
↑ Efron, 1979 .

Litteratur

Stanislav Anatoliev . Ekonometri för avancerade. Föreläsningskurs. – 2002.
Bradley Efron . Bootstrap Methods: Another Look at the Jackknife // Annals of Statistics. - 1979. - Vol. 7 , nr. 1 . - S. 1-26 . — ISSN 0090-5364 . - doi : 10.1214/aos/1176344552 .

Länkar

Bootstrap-handledning från ICASSP 99 (nedlänk sedan 2013-05-13 [3451 dagar] - historik ) : Handledning ur ett signalbehandlingsperspektiv
Handledning för bootstrap-sampling med MS Excel
Animationer för bootstrapping iid-data (nedlänk sedan 2013-05-13 [3451 dagar] - historik ) av Yihui Xie med R :n
Bootstrap handledning

I bibliografiska kataloger	BNF : 12378257v J9U : 987007536908405171 LCCN : sh91004766 NKC : ph225449