Bias-Dispersion Dilemma

Varians-varians-avvägningen i statistik och maskininlärning  är en egenskap hos en uppsättning prediktionsmodeller där modeller med mindre varians från tillgänglig data har högre varians på nya data (dvs. föremål för överanpassning ) och vice versa. Varians -varians- avvägningen  är konflikten i att samtidigt försöka minimera dessa två felkällor , som förhindrar övervakade inlärningsalgoritmer från att generalisera bortom träningsuppsättningen .

Bias-variansuppdelningen  är ett sätt att analysera det förväntade generaliseringsfelet för en inlärningsalgoritm för ett visst problem genom att reducera det till summan av tre termer - bias, varians och en kvantitet som kallas oundvikligt fel , vilket är resultatet av buller i själva problemet.

Dilemmat uppstår i alla former av övervakad inlärning  -in- klassificering , regression ( funktionsapproximation ) [1] [2] och strukturell prediktion . Dilemmat används också för att förklara effektiviteten av heuristik för att lära människor [3] .

Motiv

Bias-varians-dilemmat är ett centralt problem i handledat lärande. Den valda modellen ska å ena sidan exakt fånga alla mönster i träningsdatan, och å andra sidan generalisera mönstren till okända data. Tyvärr går det oftast inte att göra båda samtidigt. Träningsmetoder med hög varians kan representera träningsuppsättningen väl, men riskerar att överanpassas för bullriga eller icke-representativa data. Däremot producerar algoritmer med låg varians vanligtvis enklare modeller, är inte benägna att överanpassa , men kan sluta underpassa , vilket leder till att viktiga egenskaper saknas.

Modeller med låg bias tenderar att vara mer komplexa (till exempel har de regressionspolynom av högre ordning), vilket gör att de kan representera träningsuppsättningen mer exakt. Däremot kan de ha en stor bullerkomponent i träningsuppsättningen vilket gör förutsägelsen mindre exakt trots den extra komplexiteten. Däremot är modeller med hög bias relativt enklare (har lägre ordning eller till och med linjära polynom) men kan ge låg prediktionsvarians om de tillämpas utanför träningsuppsättningen.

Bias-varians dekomponering av kvadratfel

Anta att vi har en träningsuppsättning som består av en uppsättning poäng och verkliga värden associerade med var och en av dessa punkter . Vi antar att det finns en brusig funktion där bruset har noll medelvärde och varians .

Vi vill hitta en funktion som approximerar den sanna funktionen så bra som möjligt i form av någon inlärningsalgoritm. Vi gör begreppet "så bra som möjligt" exakt genom att mäta medelkvadratfelet mellan och  - vi vill att värdet ska vara minimalt både för punkter och utanför vårt urval . Naturligtvis kan vi inte göra det perfekt, eftersom det innehåller brus . Det betyder att vi måste vara beredda att acceptera ett fatalt misstag i vilken funktion vi arbetar med.

Att hitta en funktion som generaliserar till punkter utanför träningsuppsättningen kan göras med vilken som helst av ett oräkneligt antal algoritmer som används för övervakat lärande. Det visar sig att vilken funktion vi än väljer kan vi dekomponera dess förväntade fel på den osynliga datainstansen enligt följande: [4] [5] .

,

var

och

Matematiska förväntningar löper genom olika val av träningsset från samma gemensamma distribution . De tre ledamöterna representerar

Ju mer komplex modellen är, desto fler datapunkter fångar den och desto mindre blir biasen. Komplexiteten gör dock att modellen fångar fler poäng, och därför blir variansen större.

Slutsats

Härledningen av bias-variansuppdelningen för rms-felet ges nedan [6] [7] . För enkelhetens skull introducerar vi notationen och . Kom först ihåg att vi per definition, för varje slumpvariabel, har

Ordna om termerna vi får:

För det är bestämt

.

Sedan följer det av och det .

Men eftersom vi får

Eftersom och är oberoende, kan vi skriva

Ansökan om regression

Bias-variansupplösningen bildar den begreppsmässiga grunden för regressionsregulariseringsmetoder som Lasso och åsregression . Regulariseringsmetoder introducerar bias i regressionslösningen, vilket avsevärt kan minska variansen jämfört med Ordinary Least Squares OLS ) .  Även om GLSM-lösningen ger en opartisk regressionsuppskattning, ger de lägre varianslösningarna som erhålls genom regularisering ett utmärkt medelkvadratfel.

Ansökan om klassificering

Bias-variansuppdelningen formulerades ursprungligen för linjär minsta kvadraters regression . För klassificeringsfallet med en 0-1 förlustfunktion ( felklassificerad fraktion) kan en liknande sönderdelning hittas [8] [9] . Alternativt, om klassificeringsproblemet kan formuleras som en probabilistisk klassificering , kan förväntan på kvadratfelet för de förutsagda sannolikheterna med avseende på de sanna sannolikheterna dekomponeras som tidigare [10] .

Tillvägagångssätt

Dimensionalitetsreduktion och funktionsval kan minska variansen genom att förenkla modeller. Likaså leder en större träningsuppsättning till en minskning av variansen. Att lägga till funktioner (prediktorer) leder till en minskning av bias genom att öka variansen. Inlärningsalgoritmer har vanligtvis några konfigurerbara parametrar som styr bias och varians. Till exempel,

Ett sätt att lösa dilemmat är att använda blandade modeller och kompositionellt lärande [14] [15] . Till exempel, forcering kombinerar flera "svaga" (hög bias) modeller till en konstruktion som har en lägre bias än var och en av de individuella modellerna, medan bagging kombinerar "strikt" träning på ett sätt som minskar variansen.

k -närmaste grannar

I fallet med k -närmaste granne- regression finns det ett uttryck i sluten form som relaterar bias-variansuppdelningen till parametern k [5] :

var är de k närmaste grannarna till x i träningsuppsättningen. Bias (första termen) är en monotont ökande funktion av k , medan variansen (andra termen) minskar när k ökar . I själva verket, under "rimliga antaganden" försvinner den närmaste grannbias-estimatorn (1-NN) helt när storleken på träningsuppsättningen går till oändlighet [1] .

Ansökan för att lära människor

Även om bias-varians-dilemmat diskuteras flitigt i samband med maskininlärning, har det testats i samband med mänsklig kognition , framför allt av Gerd Gigerenzer et al. De hävdar att (se referenser nedan) den mänskliga hjärnan löser dilemmat i fallet med glesa, dåligt beskrivna träningsuppsättningar härledda från personlig erfarenhet genom att använda en heuristik med hög bias/låg varians. Detta återspeglar det faktum att noll-bias-metoden har dålig generalisering till nya situationer, och även orimligt antar exakt kunskap om tillståndet i världen. Den resulterande heuristiken är relativt enkel, men passar bättre till en mängd olika situationer [3] .

Gieman et al [1] motarbetar att bias-dispersion-dilemmat innebär att förmågor som gemensamt objektigenkänning inte kan förvärvas från grunden, utan kräver någon form av "hardwiring" som sedan blir erfarenhet. Det är därför som modelllösa inferensmetoder kräver orimligt stora träningsuppsättningar om hög varians ska undvikas.

Se även

Anteckningar

  1. 1 2 3 4 Geman, Bienenstock, Doursat, 1992 , sid. 1–58.
  2. Encyclopedia of Machine Learning, 2011 , s. 100-101.
  3. 1 2 Gigerenzer, Brighton, 2009 , sid. 107–143.
  4. 1 2 James, Witten, Hastie, Tibshirani, 2013 , sid. 34.
  5. 1 2 Hastie, Tibshirani, Friedman, 2009 , sid. 223.
  6. Vijayakumar, 2007 .
  7. Shakhnarovich, 2011 .
  8. Domingos, 2000 .
  9. Valentini, Dietterich, 2004 , sid. 725–775.
  10. Manning, Raghavan, Schütze, 2008 , sid. 308–314.
  11. Belsley, 1991 .
  12. Gagliardi, 2011 , sid. 123–139.
  13. James, Witten, Hastie, Tibshirani, 2013 , sid. 307.
  14. Ting, Vijaykumar, Schaal, 2011 , sid. 615.
  15. Fortmann-Roe, 2012 .

Litteratur