Statistisk inlärningsteori

Statistisk inlärningsteori  är en modell för inlärningsmaskiner baserad på statistik och funktionsanalys [1] [2] . Statistisk inlärningsteori behandlar problemen med att hitta en prediktiv funktion baserad på data. Statistisk inlärningsteori har lett till framgångsrika tillämpningar inom områden som datorseende , taligenkänning och bioinformatik .

Inledning

Syftet med lärande är förståelse och framförhållning. Lärande delas in i flera kategorier inklusive övervakat lärande , oövervakat lärande , onlineinlärning och förstärkningsinlärning . Ur den statistiska teorin om lärande är övervakat lärande det mest begripliga [3] . Övervakat lärande innebär inlärning med träningsdatauppsättningen Varje träningsmoment är ett ingångs/utgångspar, där ingångsvärdet mappas till utgångsvärdet. Inlärningsproblemet är att rekonstruera en funktion som mappar ingångar till utgångar så att funktionen kan användas för att förutsäga utdata från framtida indata.

Beroende på typen av slutledning är övervakade inlärningsproblem antingen regressionsproblem eller klassificeringsproblem . Om utgången kan anta ett kontinuerligt område är det ett regressionsproblem. Med Ohms lag som ett exempel, kan regressionen ta spänning som ingång och ge ström som utgång. Regressionen kunde hitta sambandet mellan spänning och ström som , så att

Klassificeringsuppgifter är de för vilka utdata kommer att vara ett element från en uppsättning etiketter. Klassificering är mycket vanligt i maskininlärningsapplikationer. I ett ansiktsigenkänningssystem , till exempel, skulle en bild av ett ansikte vara indata, och utdata kan vara personens efternamn. Ingången kan representeras som en stor flerdimensionell vektor vars element representerar pixlarna i bilden.

Efter att ha tränat en funktion baserad på träningssetet testas den funktionen på en testset som inte visas i träningssetet.

Formell beskrivning

Låt vara vektorrummet för alla möjliga ingångar och  vara vektorrummet för alla möjliga utdata. Statistisk inlärningsteori antar att det finns en okänd sannolikhetsfördelning över produkten av utrymmen , det vill säga att det finns en del okänd . Träningsuppsättningen består av instanser av denna sannolikhetsfördelning och betecknas

Var och en är en ingångsvektor från träningsdatan och är en utmatning som motsvarar den inmatningsvektorn.

I en sådan formalisering är slutledningsproblemet att hitta en funktion sådan att . Låta vara  utrymmet för funktioner , som kallas utrymmet för hypoteser. Hypotesutrymmet är det utrymme som algoritmen kommer att titta på. Låt vara en förlustfunktion , ett mått på skillnaden mellan det förutsagda värdet och det sanna värdet . Den förväntade risken definieras som

Objektiv funktion, den bästa funktionen som kan väljas är den funktion som uppfyller villkoret

Eftersom sannolikhetsfördelningen är okänd måste proxymått på förväntad risk användas. Dessa poäng är baserade på träningsuppsättningen, ett urval från denna okända sannolikhetsfördelning. Ett sådant mått kallas empirisk risk: En inlärningsalgoritm som väljer en funktion som minimerar empirisk risk kallas empirisk riskminimering .

Förlustfunktioner

Valet av förlustfunktion är bestämningen av den avgörande faktorn för funktionen som kommer att väljas av inlärningsalgoritmen. Förlustfunktionen påverkar också algoritmens konvergenshastighet. Det är viktigt att förlustfunktionen är konvex [4] .

Olika förlustfunktioner används beroende på om problemet är regression eller klassificering.

Regression

Den vanligaste förlustfunktionen för regression är den kvadratiska förlustfunktionen (även känd som L2-normen ). Denna välbekanta förlustfunktion används i den vanliga minsta kvadratmetoden . Formel:

Det absoluta förlustvärdet (även känt som L1-normen ) används också ibland:

Klassificering

På sätt och vis är 0-1 -indikatorfunktionen den mest naturliga förlustfunktionen för klassificeringsproblem. Funktionen tar värdet 0 om det förutsagda resultatet matchar det korrekta värdet och värdet 1 om det förutsagda resultatet inte matchar det korrekta värdet. För binär klassificering skulle detta vara:

var  är Heaviside-funktionen .

Regularisering

I maskininlärningsuppgifter blir överanpassning ett stort problem . Eftersom inlärning är en förutsägelseuppgift, är målet inte att hitta den funktion som passar (förhandsgranskad) data bäst, utan att hitta den funktion som mest exakt kommer att förutsäga utdata från framtida indata. Empirisk riskminimering faller in i denna överanpassningsrisk – att hitta en funktion som passar data exakt men misslyckas med att förutsäga framtiden.

Överanpassning är ett symptom på instabila lösningar – små förändringar i träningsuppsättningen kan orsaka stora variationer i inlärningsfunktionen. Det kan visas att lösningens stabilitet kan garanteras [5] [6] . Regulering kan lösa övermonteringsproblemet och ge stabilitet.

Regularisering kan göras genom att begränsa utrymmet för hypoteser . Det kan begränsas, till exempel, till linjära funktioner - detta kan betraktas som en begränsning till det vanliga linjära regressionsproblemet . kan begränsas till gradpolynom , exponential eller begränsade funktioner på L1 . Begränsningen av hypotesutrymmet utesluter överanpassning genom att begränsa formen av potentiella funktioner, vilket inte tillåter att man väljer funktioner som ger en empirisk risk godtyckligt nära noll.

Ett exempel på en regularisering är Tikhonovs regularisering . Det består i att minimera

,

där är en fast positiv parameter. Tikhonov-regulariseringsmetoden säkerställer lösningens existens, unikhet och stabilitet [7] .

Anteckningar

  1. Hastie, Tibshirani, Friedman, 2009 .
  2. Mohri, Rostamizadeh, Talwalkar, 2012 .
  3. Tomaso Poggio, Lorenzo Rosasco, et al. Statistisk lärandeteori och tillämpningar , 2012, klass 1 Arkiverad 16 september 2012 på Wayback Machine
  4. Rosasco, Vito, Caponnetto, Fiana, Verri, 2004 , sid. 1063-1076.
  5. Vapnik, Chervonenkis, 1971 , sid. 264-280.
  6. Mukherjee, Niyogi, Poggio, Rifkin, 2006 , sid. 161-193.
  7. Tomaso Poggio, Lorenzo Rosasco, et al. Statistical Learning Theory and Applications , 2012, klass 2 Arkiverad 16 augusti 2016 på Wayback Machine

Litteratur