Bias-Dispersion Dilemma

Varians-varians-avvägningen i statistik och maskininlärning är en egenskap hos en uppsättning prediktionsmodeller där modeller med mindre varians från tillgänglig data har högre varians på nya data (dvs. föremål för överanpassning ) och vice versa. Varians -varians- avvägningen är konflikten i att samtidigt försöka minimera dessa två felkällor , som förhindrar övervakade inlärningsalgoritmer från att generalisera bortom träningsuppsättningen .

Bias är det uppskattningsfel som är ett resultat av ett felaktigt antagande iinlärningsalgoritmen . Som ett resultat av en stor bias kan algoritmen missa kopplingen mellan funktionerna och utgången (underfitting).
Variansen är känslighetsfelet för små avvikelser i träningsuppsättningen. Med hög varians kan algoritmen på något sätt behandla slumpmässigt brus i träningsuppsättningen, snarare än det önskade resultatet ( överanpassning ).

Bias-variansuppdelningen är ett sätt att analysera det förväntade generaliseringsfelet för en inlärningsalgoritm för ett visst problem genom att reducera det till summan av tre termer - bias, varians och en kvantitet som kallas oundvikligt fel , vilket är resultatet av buller i själva problemet.

Dilemmat uppstår i alla former av övervakad inlärning -in- klassificering , regression ( funktionsapproximation ) [1] [2] och strukturell prediktion . Dilemmat används också för att förklara effektiviteten av heuristik för att lära människor [3] .

Motiv

Bias-varians-dilemmat är ett centralt problem i handledat lärande. Den valda modellen ska å ena sidan exakt fånga alla mönster i träningsdatan, och å andra sidan generalisera mönstren till okända data. Tyvärr går det oftast inte att göra båda samtidigt. Träningsmetoder med hög varians kan representera träningsuppsättningen väl, men riskerar att överanpassas för bullriga eller icke-representativa data. Däremot producerar algoritmer med låg varians vanligtvis enklare modeller, är inte benägna att överanpassa , men kan sluta underpassa , vilket leder till att viktiga egenskaper saknas.

Modeller med låg bias tenderar att vara mer komplexa (till exempel har de regressionspolynom av högre ordning), vilket gör att de kan representera träningsuppsättningen mer exakt. Däremot kan de ha en stor bullerkomponent i träningsuppsättningen vilket gör förutsägelsen mindre exakt trots den extra komplexiteten. Däremot är modeller med hög bias relativt enklare (har lägre ordning eller till och med linjära polynom) men kan ge låg prediktionsvarians om de tillämpas utanför träningsuppsättningen.

Bias-varians dekomponering av kvadratfel

Anta att vi har en träningsuppsättning som består av en uppsättning poäng och verkliga värden associerade med var och en av dessa punkter . Vi antar att det finns en brusig funktion där bruset har noll medelvärde och varians . $x_{1},\dots ,x_{n}$ $y_{i}$ $x_{i}$ $y=f(x)+\varepsilon$ $\varepsilon$ $\sigma ^{2}$

Vi vill hitta en funktion som approximerar den sanna funktionen så bra som möjligt i form av någon inlärningsalgoritm. Vi gör begreppet "så bra som möjligt" exakt genom att mäta medelkvadratfelet mellan och - vi vill att värdet ska vara minimalt både för punkter och utanför vårt urval . Naturligtvis kan vi inte göra det perfekt, eftersom det innehåller brus . Det betyder att vi måste vara beredda att acceptera ett fatalt misstag i vilken funktion vi arbetar med. ${\hat {f}}(x)$ $f(x)$ $y$ ${\hat {f}}(x)$ $(y-{\hat {f}}(x))^{2}$ $x_{1},\dots ,x_{n}$ $y_{i}$ $\varepsilon$

Att hitta en funktion som generaliserar till punkter utanför träningsuppsättningen kan göras med vilken som helst av ett oräkneligt antal algoritmer som används för övervakat lärande. Det visar sig att vilken funktion vi än väljer kan vi dekomponera dess förväntade fel på den osynliga datainstansen enligt följande: [4] [5] . ${\hat {f))$ ${\hat {f))$ $x$

{\begin{aligned}\operatörsnamn {E} {\Big [}{\big (}y-{\hat {f))(x){\big )}^{2}{\Big ]} &={\Big (}\operatörsnamn {Bias} {\big [}{\hat {f))(x){\big ]}{\Big )}^{2}+\operatörsnamn {Var} {\big [}{\hat {f}}(x){\big ]}+\sigma ^{2}\\\end{aligned}}

var

{\begin{aligned}\operatörsnamn {Bias} {\big [}{\hat {f}}(x){\big ]}=\operatörsnamn {E} {\big [}{\hat {f }}(x)-f(x){\big ]}\end{aligned}}

och

{\begin{aligned}\operatörsnamn {Var} {\big [}{\hat {f}}(x){\big ]}=\operatörsnamn {E} [{\hat {f}}(x )^{2}]-{\Big (}\operatörsnamn {E} [{\hat {f}}(x)]{\Big )}^{2}\end{aligned}}

Matematiska förväntningar löper genom olika val av träningsset från samma gemensamma distribution . De tre ledamöterna representerar ${\displaystyle x_{1},\dots ,x_{n},y_{1},\dots ,y_{n))$ $P(x,y)$

inlärningsmetodens kvadratiska bias , vilket kan ses som ett fel orsakat av att förenkla de antaganden som gjorts i metoden. Till exempel, när en icke-linjär funktionsapproximation tillämpas vid användning av en inlärningsmetod för linjära modeller , kommer det att uppstå ett uppskattningsfel som ett resultat av ett sådant antagande; $f(x)$ ${\hat {f}}(x)$
variansen av inlärningsmetoden, eller, intuitivt, hur långt inlärningsmetoden kommer att leda bort från medelvärdet; ${\hat {f}}(x)$
ödesdigert fel . Eftersom alla tre kvantiteterna är icke-negativa, bildar de en nedre gräns för det förväntade felet på den osynliga datan [4] . $\sigma ^{2}$

Ju mer komplex modellen är, desto fler datapunkter fångar den och desto mindre blir biasen. Komplexiteten gör dock att modellen fångar fler poäng, och därför blir variansen större. ${\hat {f}}(x)$

Slutsats

Härledningen av bias-variansuppdelningen för rms-felet ges nedan [6] [7] . För enkelhetens skull introducerar vi notationen och . Kom först ihåg att vi per definition, för varje slumpvariabel, har $f=f(x)$ ${\hat {f}}={\hat {f}}(x)$ $X$

{\begin{aligned}\operatörsnamn {Var} [X]=\operatörsnamn {E} [X^{2}]-{\Big (}\operatörsnamn {E} [X]{\Big )}^ {2}\end{aligned}}

Ordna om termerna vi får:

{\begin{aligned}\operatörsnamn {E} [X^{2}]=\operatörsnamn {Var} [X]+{\Big (}\operatörsnamn {E} [X]{\Big )}^ {2}\end{aligned}}

För det är bestämt $f$

{\begin{aligned}\operatörsnamn {E} [f]=f\end{aligned}}

Sedan följer det av och det . $y=f+\varepsilon$ $\operatörsnamn {E} [\varepsilon ]=0$ $\operatörsnamn {E} [y]=\operatörsnamn {E} [f+\varepsilon ]=\operatörsnamn {E} [f]=f$

Men eftersom vi får $\operatörsnamn {Var} [\varepsilon ]=\sigma ^{2},$

{\begin{aligned}\operatörsnamn {Var} [y]=\operatörsnamn {E} [(y-\operatörsnamn {E} [y])^{2}]=\operatörsnamn {E} [(yf )^{2}]=\operatörsnamn {E} [(f+\varepsilon -f)^{2}]=\operatörsnamn {E} [\varepsilon ^{2}]=\operatörsnamn {Var} [\varepsilon ]+ {\Big (}\operatörsnamn {E} [\varepsilon ]{\Big )}^{2}=\sigma ^{2}\end{aligned))

Eftersom och är oberoende, kan vi skriva $\varepsilon$ ${\hat {f))$

{\begin{aligned}\operatörsnamn {E} {\big [}(y-{\hat {f)))^{2}{\big ]}&=\operatörsnamn {E} [y^{ 2}+{\hat {f}}^{2}-2y{\hat {f}}]\\&=\operatörsnamn {E} [y^{2}]+\operatörsnamn {E} [{\hat {f}}^{2}]-\operatörsnamn {E} [2y{\hat {f}}]\\&=\operatörsnamn {Var} [y]+\operatörsnamn {E} [y]^{2} +\operatörsnamn {Var} [{\hat {f}}]+\operatörsnamn {E} [{\hat {f}}]^{2}-2f\operatörsnamn {E} [{\hat {f}}] \\&=\operatörsnamn {Var} [y]+\operatörsnamn {Var} [{\hat {f}}]+{\Big (}f^{2}-2f\operatörsnamn {E} [{\hat { f}}]+\operatörsnamn {E} [{\hat {f}}]^{2}{\Big )}\\&=\operatörsnamn {Var} [y]+\operatörsnamn {Var} [{\hat {f}}]+(f-\operatörsnamn {E} [{\hat {f}}])^{2}\\&=\sigma ^{2}+\operatörsnamn {Var} [{\hat {f }}]+\operatörsnamn {Bias} [{\hat {f}}]^{2}\end{aligned}}

Ansökan om regression

Bias-variansupplösningen bildar den begreppsmässiga grunden för regressionsregulariseringsmetoder som Lasso och åsregression . Regulariseringsmetoder introducerar bias i regressionslösningen, vilket avsevärt kan minska variansen jämfört med Ordinary Least Squares OLS ) . Även om GLSM-lösningen ger en opartisk regressionsuppskattning, ger de lägre varianslösningarna som erhålls genom regularisering ett utmärkt medelkvadratfel.

Ansökan om klassificering

Bias-variansuppdelningen formulerades ursprungligen för linjär minsta kvadraters regression . För klassificeringsfallet med en 0-1 förlustfunktion ( felklassificerad fraktion) kan en liknande sönderdelning hittas [8] [9] . Alternativt, om klassificeringsproblemet kan formuleras som en probabilistisk klassificering , kan förväntan på kvadratfelet för de förutsagda sannolikheterna med avseende på de sanna sannolikheterna dekomponeras som tidigare [10] .

Tillvägagångssätt

Dimensionalitetsreduktion och funktionsval kan minska variansen genom att förenkla modeller. Likaså leder en större träningsuppsättning till en minskning av variansen. Att lägga till funktioner (prediktorer) leder till en minskning av bias genom att öka variansen. Inlärningsalgoritmer har vanligtvis några konfigurerbara parametrar som styr bias och varians. Till exempel,

( Generaliserade ) linjära modeller kan regleras för att minska variansen genom att öka bias [11] .
i artificiella neurala nätverk ökar variansen och biasen minskar när antalet dolda enheter ökar [1] . Liksom generaliserade linjära modeller används regularisering också ofta för dem.
I k-närmaste grannmodeller leder ett stort värde på k till stor bias och låg varians (se nedan).
När man lär sig genom exempel kan man få regularisering genom att blanda prototyper och exempel [12] .
I beslutsträd är det trädens djup som avgör variansen. Beslutsträd trimmas vanligtvis för att kontrollera variansen [13] .

Ett sätt att lösa dilemmat är att använda blandade modeller och kompositionellt lärande [14] [15] . Till exempel, forcering kombinerar flera "svaga" (hög bias) modeller till en konstruktion som har en lägre bias än var och en av de individuella modellerna, medan bagging kombinerar "strikt" träning på ett sätt som minskar variansen.

k -närmaste grannar

I fallet med k -närmaste granne- regression finns det ett uttryck i sluten form som relaterar bias-variansuppdelningen till parametern k [5] :

\operatorname {E} [(y-{\hat {f}}(x))^{2}\mid X=x]=\left(f(x)-{\frac {1}{k }}\summa _{i=1}^{k}f(N_{i}(x))\right)^{2}+{\frac {\sigma ^{2}}{k}}+\sigma ^{2}

var är de k närmaste grannarna till x i träningsuppsättningen. Bias (första termen) är en monotont ökande funktion av k , medan variansen (andra termen) minskar när k ökar . I själva verket, under "rimliga antaganden" försvinner den närmaste grannbias-estimatorn (1-NN) helt när storleken på träningsuppsättningen går till oändlighet [1] . $N_{1}(x),\dots ,N_{k}(x)$

Ansökan för att lära människor

Även om bias-varians-dilemmat diskuteras flitigt i samband med maskininlärning, har det testats i samband med mänsklig kognition , framför allt av Gerd Gigerenzer et al. De hävdar att (se referenser nedan) den mänskliga hjärnan löser dilemmat i fallet med glesa, dåligt beskrivna träningsuppsättningar härledda från personlig erfarenhet genom att använda en heuristik med hög bias/låg varians. Detta återspeglar det faktum att noll-bias-metoden har dålig generalisering till nya situationer, och även orimligt antar exakt kunskap om tillståndet i världen. Den resulterande heuristiken är relativt enkel, men passar bättre till en mängd olika situationer [3] .

Gieman et al [1] motarbetar att bias-dispersion-dilemmat innebär att förmågor som gemensamt objektigenkänning inte kan förvärvas från grunden, utan kräver någon form av "hardwiring" som sedan blir erfarenhet. Det är därför som modelllösa inferensmetoder kräver orimligt stora träningsuppsättningar om hög varians ska undvikas.

Se även

Noggrannhet
Opartisk skattare
Gauss-Markovs teorem
Hyperparameteroptimering
Opartisk uppskattning av minsta varians
Modellval
Regressionsmodellvalidering
Att lära sig med en lärare

Maximal likelihood-metod

Anteckningar

↑ 1 2 3 4 Geman, Bienenstock, Doursat, 1992 , sid. 1–58.
↑ Encyclopedia of Machine Learning, 2011 , s. 100-101.
↑ 1 2 Gigerenzer, Brighton, 2009 , sid. 107–143.
↑ 1 2 James, Witten, Hastie, Tibshirani, 2013 , sid. 34.
↑ 1 2 Hastie, Tibshirani, Friedman, 2009 , sid. 223.
↑ Vijayakumar, 2007 .
↑ Shakhnarovich, 2011 .
↑ Domingos, 2000 .
↑ Valentini, Dietterich, 2004 , sid. 725–775.
↑ Manning, Raghavan, Schütze, 2008 , sid. 308–314.
↑ Belsley, 1991 .
↑ Gagliardi, 2011 , sid. 123–139.
↑ James, Witten, Hastie, Tibshirani, 2013 , sid. 307.
↑ Ting, Vijaykumar, Schaal, 2011 , sid. 615.
↑ Fortmann-Roe, 2012 .

Litteratur

Bias–variance decomposition // Encyclopedia of Machine Learning. — 2011.
Gerd Gigerenzer, Henry Brighton. Homo Heuristicus: Varför partiska sinnen gör bättre slutsatser. - 2009. - T. 1 . - doi : 10.1111/j.1756-8765.2008.01006.x . — PMID 25164802 .
Gareth James, Daniela Witten, Trevor Hastie, Robert Tibshirani. En introduktion till statistiskt lärande . — Springer, 2013.
Trevor Hastie, Robert Tibshirani, Jerome Friedman. Elementen i statistiskt lärande . — 2009. Arkiverad 26 januari 2015 på Wayback Machine
Sethu Vijayakumar. Avvägningen mellan bias och varians . — University of Edinburgh, 2007.
Greg Shakhnarovich. Anteckningar om härledning av bias-variansuppdelning i linjär regression . - 2011. Arkiverad 21 augusti 2014.
David Belsley. 7 Konditioneringsdiagnostik: kollinearitet och svaga data i regression . - New York: Wiley, 1991. - ISBN 978-0471528890 .
Pedro Domingos. En enhetlig bias- variansuppdelning // ICML . — 2000.
Giorgio Valentini, Thomas G. Dietterich. Bias–variansanalys av stödvektormaskiner för utveckling av SVM-baserade ensemblemetoder // JMLR . - 2004. - T. 5 .
Christopher D. Manning, Prabhakar Raghavan, Hinrich Schütze. Introduktion till informationssökning . — Cambridge University Press, 2008.
Gagliardi F. Instansbaserade klassificerare tillämpade på medicinska databaser: diagnos och kunskapsextraktion // Artificiell intelligens inom medicin. - 2011. - T. 52 , nr. 3 . - doi : 10.1016/j.artmed.2011.04.002 .
Jo-Anne Ting, Sethu Vijaykumar, Stefan Schaal. Lokalt viktad regression för kontroll. I Encyclopedia of Machine Learning / Claude Sammut, Geoffrey I. Webb .. - Springer, 2011. - S. 615.
Scott Fortmann Roe. Förstå avvägningen mellan partiskhet och varians . — 2012.

Maskininlärning och datautvinning
Uppgifter	Klassificeringsproblem Lärande utan lärare Lärarassisterat lärande Regressionsanalys AutoML Föreningens regler Särdragsextraktion Egenskapsträning Ranking utbildning Grammatisk härledning Online lärande
Att lära sig med en lärare	k-närmaste granne metod Naiv Bayes klassificerare beslutsträd Stöd vektor maskin Linjär regression Logistisk tillbakagång perceptron Ensembler av modeller Säckväv förstärkning slumpmässig skog Relevant vektormetod
klusteranalys	k-betyder metod Fuzzy klustringsmetod Hierarkisk klustring EM algoritm BJÖRK BOTA DBSCAN OPTIK Genomsnittlig förskjutning
Dimensionalitetsreduktion	Faktoranalys Huvudkomponentmetoden CCA ICA LDA Icke-negativ matrisexpansion t-SNE
Strukturell prognos	Graph probabilistisk modell Bayesiskt nätverk Dold Markov-modell CRF
Anomali upptäckt	k-närmaste granne metod Lokal utsläppsnivå
Grafisk probabilistiska modeller	Bayesiskt nätverk Markov nätverk Dold Markov-modell
Neurala nätverk	Begränsad Boltzmann-maskin självorganiserande karta Aktiveringsfunktion Sigmoid softmax Radiell basfunktion Ryggförökningsmetod Djup lärning Flerskiktsperceptron Återkommande neurala nätverk långtidsminne Kontrollerat återkommande block Konvolutionellt neuralt nätverk U-nät Autokodare
Förstärkningsinlärning	Markov process Bellmans ekvation Girig algoritm Q-lärande SARSA Temporell skillnad (TD)
Teori	Vapnik-Chervonenkis teori Bias-Dispersion Dilemma Beräkningslärandeteori Empirisk riskminimering Occam lär sig PAC-inlärning Statistisk inlärningsteori
Tidskrifter och konferenser	NeurIPS ICML ML JMLR ArXiv:cs.LG