Statistisk inlärningsteori är en modell för inlärningsmaskiner baserad på statistik och funktionsanalys [1] [2] . Statistisk inlärningsteori behandlar problemen med att hitta en prediktiv funktion baserad på data. Statistisk inlärningsteori har lett till framgångsrika tillämpningar inom områden som datorseende , taligenkänning och bioinformatik .
Syftet med lärande är förståelse och framförhållning. Lärande delas in i flera kategorier inklusive övervakat lärande , oövervakat lärande , onlineinlärning och förstärkningsinlärning . Ur den statistiska teorin om lärande är övervakat lärande det mest begripliga [3] . Övervakat lärande innebär inlärning med träningsdatauppsättningen Varje träningsmoment är ett ingångs/utgångspar, där ingångsvärdet mappas till utgångsvärdet. Inlärningsproblemet är att rekonstruera en funktion som mappar ingångar till utgångar så att funktionen kan användas för att förutsäga utdata från framtida indata.
Beroende på typen av slutledning är övervakade inlärningsproblem antingen regressionsproblem eller klassificeringsproblem . Om utgången kan anta ett kontinuerligt område är det ett regressionsproblem. Med Ohms lag som ett exempel, kan regressionen ta spänning som ingång och ge ström som utgång. Regressionen kunde hitta sambandet mellan spänning och ström som , så att
Klassificeringsuppgifter är de för vilka utdata kommer att vara ett element från en uppsättning etiketter. Klassificering är mycket vanligt i maskininlärningsapplikationer. I ett ansiktsigenkänningssystem , till exempel, skulle en bild av ett ansikte vara indata, och utdata kan vara personens efternamn. Ingången kan representeras som en stor flerdimensionell vektor vars element representerar pixlarna i bilden.
Efter att ha tränat en funktion baserad på träningssetet testas den funktionen på en testset som inte visas i träningssetet.
Låt vara vektorrummet för alla möjliga ingångar och vara vektorrummet för alla möjliga utdata. Statistisk inlärningsteori antar att det finns en okänd sannolikhetsfördelning över produkten av utrymmen , det vill säga att det finns en del okänd . Träningsuppsättningen består av instanser av denna sannolikhetsfördelning och betecknas
Var och en är en ingångsvektor från träningsdatan och är en utmatning som motsvarar den inmatningsvektorn.
I en sådan formalisering är slutledningsproblemet att hitta en funktion sådan att . Låta vara utrymmet för funktioner , som kallas utrymmet för hypoteser. Hypotesutrymmet är det utrymme som algoritmen kommer att titta på. Låt vara en förlustfunktion , ett mått på skillnaden mellan det förutsagda värdet och det sanna värdet . Den förväntade risken definieras som
Objektiv funktion, den bästa funktionen som kan väljas är den funktion som uppfyller villkoret
Eftersom sannolikhetsfördelningen är okänd måste proxymått på förväntad risk användas. Dessa poäng är baserade på träningsuppsättningen, ett urval från denna okända sannolikhetsfördelning. Ett sådant mått kallas empirisk risk: En inlärningsalgoritm som väljer en funktion som minimerar empirisk risk kallas empirisk riskminimering .
Valet av förlustfunktion är bestämningen av den avgörande faktorn för funktionen som kommer att väljas av inlärningsalgoritmen. Förlustfunktionen påverkar också algoritmens konvergenshastighet. Det är viktigt att förlustfunktionen är konvex [4] .
Olika förlustfunktioner används beroende på om problemet är regression eller klassificering.
Den vanligaste förlustfunktionen för regression är den kvadratiska förlustfunktionen (även känd som L2-normen ). Denna välbekanta förlustfunktion används i den vanliga minsta kvadratmetoden . Formel:
Det absoluta förlustvärdet (även känt som L1-normen ) används också ibland:
På sätt och vis är 0-1 -indikatorfunktionen den mest naturliga förlustfunktionen för klassificeringsproblem. Funktionen tar värdet 0 om det förutsagda resultatet matchar det korrekta värdet och värdet 1 om det förutsagda resultatet inte matchar det korrekta värdet. För binär klassificering skulle detta vara:
var är Heaviside-funktionen .
I maskininlärningsuppgifter blir överanpassning ett stort problem . Eftersom inlärning är en förutsägelseuppgift, är målet inte att hitta den funktion som passar (förhandsgranskad) data bäst, utan att hitta den funktion som mest exakt kommer att förutsäga utdata från framtida indata. Empirisk riskminimering faller in i denna överanpassningsrisk – att hitta en funktion som passar data exakt men misslyckas med att förutsäga framtiden.
Överanpassning är ett symptom på instabila lösningar – små förändringar i träningsuppsättningen kan orsaka stora variationer i inlärningsfunktionen. Det kan visas att lösningens stabilitet kan garanteras [5] [6] . Regulering kan lösa övermonteringsproblemet och ge stabilitet.
Regularisering kan göras genom att begränsa utrymmet för hypoteser . Det kan begränsas, till exempel, till linjära funktioner - detta kan betraktas som en begränsning till det vanliga linjära regressionsproblemet . kan begränsas till gradpolynom , exponential eller begränsade funktioner på L1 . Begränsningen av hypotesutrymmet utesluter överanpassning genom att begränsa formen av potentiella funktioner, vilket inte tillåter att man väljer funktioner som ger en empirisk risk godtyckligt nära noll.
Ett exempel på en regularisering är Tikhonovs regularisering . Det består i att minimera
,där är en fast positiv parameter. Tikhonov-regulariseringsmetoden säkerställer lösningens existens, unikhet och stabilitet [7] .
Maskininlärning och datautvinning | |
---|---|
Uppgifter | |
Att lära sig med en lärare | |
klusteranalys | |
Dimensionalitetsreduktion | |
Strukturell prognos | |
Anomali upptäckt | |
Grafisk probabilistiska modeller | |
Neurala nätverk | |
Förstärkningsinlärning |
|
Teori | |
Tidskrifter och konferenser |
|