Att lära sig med en lärare

Den aktuella versionen av sidan har ännu inte granskats av erfarna bidragsgivare och kan skilja sig väsentligt från versionen som granskades den 12 april 2020; verifiering kräver 1 redigering .

Övervakad inlärning är en av metoderna för maskininlärning , under vilken systemet som testas tvingas lära sig med hjälp av stimulus-responsexempel. Ur cybernetikens synvinkel är det en av typerna av cybernetiska experiment . Det kan finnas något samband mellan ingångar och referensutgångar (stimulus-respons), men detta är okänt. Endast en ändlig uppsättning prejudikat är känd - stimulus-svarspar, som kallas träningsprovet . Baserat på dessa data krävs det att återställa beroendet (för att bygga en modell av stimulus-svar-relationer som är lämpliga för prognoser), det vill säga att bygga en algoritm som kan ge ett ganska exakt svar för vilket objekt som helst. För att mäta svarens noggrannhet, såväl som för att lära sig genom exempel , kan en kvalitetsfunktion introduceras .

Principen för att ställa in detta experiment

Detta experiment är ett specialfall av ett cybernetiskt experiment med feedback. Att sätta upp detta experiment förutsätter att det finns ett experimentellt system, en träningsmetod och en metod för att testa systemet eller mäta egenskaper.

Det experimentella systemet består i sin tur av det testade (använda) systemet, utrymmet för stimuli som tas emot från den yttre miljön och förstärkningskontrollsystemet (regulator av interna parametrar). Som ett förstärkningskontrollsystem kan en automatisk kontrollanordning (till exempel en termostat) eller en mänsklig operatör (lärare) användas, som kan svara på reaktionerna från det testade systemet och miljöstimuli genom att tillämpa speciella förstärkningsregler som ändrar tillståndet av systemets minne.

Det finns två alternativ: (1) när responsen från systemet som testas inte ändrar miljöns tillstånd och (2) när systemets respons förändrar miljöns stimuli. Dessa scheman indikerar den grundläggande likheten mellan ett sådant allmänt system och det biologiska nervsystemet.

Typologi för övervakade lärandeuppgifter

Indatatyper

En vägledande beskrivning är det vanligaste fallet. Varje objekt beskrivs av en uppsättning av dess egenskaper, som kallas funktioner . Funktioner kan vara numeriska eller icke-numeriska.
Avståndsmatris mellan objekt. Varje objekt beskrivs med avstånd till alla andra objekt i träningsprovet. Få metoder fungerar med denna typ av inmatning, i synnerhet metoden k närmaste grannar , Parzen-fönstermetoden och potentialfunktionsmetoden .
En tidsserie eller signal är en sekvens av mätningar över tid. Varje dimension kan representeras av ett tal, en vektor och, i det allmänna fallet, en vägledande beskrivning av objektet som studeras vid en given tidpunkt.
Bild- eller videosekvens .
Det finns också mer komplexa fall när indata presenteras i form av grafer , texter, databasfrågeresultat , etc. Som regel reduceras de till det första eller andra fallet genom att förbearbeta data och extrahera funktioner .

Svarstyper

När mängden möjliga svar är oändlig (svaren är reella tal eller vektorer), talar man om regressions- och approximationsproblem ;
När uppsättningen av möjliga svar är ändlig talar man om problem med klassificering och mönsterigenkänning ;
När svaren karaktäriserar det framtida beteendet hos en process eller ett fenomen talar man om prognosuppgifter .

Degenererade typer av förstärkningskontrollsystem ("lärare")

Ett reaktionsstyrt armeringssystem ( R är ett kontrollerat system ) kännetecknas av att informationskanalen från den yttre miljön till armeringssystemet inte fungerar. Detta system, trots närvaron av ett kontrollsystem, hänvisar till spontan inlärning , eftersom systemet som testas lär sig självständigt, under påverkan av endast dess utsignaler, oavsett deras "riktighet". Med denna metod för inlärning krävs ingen extern information för att styra förändringen i minnets tillstånd;
Förstärkningssystem med incitamentstyrning ( S - styrt system ) - kännetecknas av att informationskanalen från det testade systemet till förstärkningssystemet inte fungerar. Trots den icke-fungerande kanalen från utdata från det testade systemet, hänvisar det till övervakat lärande, eftersom i detta fall förstärkningssystemet (läraren) tvingar det testade systemet att producera reaktioner enligt en viss regel, även om förekomsten av sanna reaktioner av det testade systemet beaktas inte.

Denna distinktion möjliggör en djupare titt på skillnaderna mellan olika sätt att lära, eftersom gränsen mellan övervakat och oövervakat lärande är mer subtil. Dessutom gjorde en sådan skillnad det möjligt att visa vissa begränsningar för artificiella neurala nätverk för S- och R-kontrollerade system (se Perceptron Convergence Theorem ).

Se även

Litteratur

Rosenblatt, F. Principer för neurodynamisk: perceptroner och teorin om hjärnans mekanismer. - M . : Mir, 1965. - 480 sid. Arkiverad21 maj 2015 påWayback Machine

Wasserman, F. Neurocomputer Engineering: Teori och praktik = Neural Computing. teori och praktik. — M .: Mir, 1992. — 240 sid. — ISBN 5-03-002115-9 . Arkiverad 30 juni 2009 på Wayback Machine

Maskininlärning och datautvinning
Uppgifter	Klassificeringsproblem Lärande utan lärare Lärarassisterat lärande Regressionsanalys AutoML Föreningens regler Särdragsextraktion Egenskapsträning Ranking utbildning Grammatisk härledning Online lärande
Att lära sig med en lärare	k-närmaste granne metod Naiv Bayes klassificerare beslutsträd Stöd vektor maskin Linjär regression Logistisk tillbakagång perceptron Ensembler av modeller Säckväv förstärkning slumpmässig skog Relevant vektormetod
klusteranalys	k-betyder metod Fuzzy klustringsmetod Hierarkisk klustring EM algoritm BJÖRK BOTA DBSCAN OPTIK Genomsnittlig förskjutning
Dimensionalitetsreduktion	Faktoranalys Huvudkomponentmetoden CCA ICA LDA Icke-negativ matrisexpansion t-SNE
Strukturell prognos	Graph probabilistisk modell Bayesiskt nätverk Dold Markov-modell CRF
Anomali upptäckt	k-närmaste granne metod Lokal utsläppsnivå
Grafisk probabilistiska modeller	Bayesiskt nätverk Markov nätverk Dold Markov-modell
Neurala nätverk	Begränsad Boltzmann-maskin självorganiserande karta Aktiveringsfunktion Sigmoid softmax Radiell basfunktion Ryggförökningsmetod Djup lärning Flerskiktsperceptron Återkommande neurala nätverk långtidsminne Kontrollerat återkommande block Konvolutionellt neuralt nätverk U-Net Autokodare
Förstärkningsinlärning	Markov process Bellmans ekvation Girig algoritm Q-lärande SARSA Temporell skillnad (TD)
Teori	Vapnik-Chervonenkis teori Bias-Dispersion Dilemma Beräkningslärandeteori Empirisk riskminimering Occam lär sig PAC-inlärning Statistisk inlärningsteori
Tidskrifter och konferenser	NeurIPS ICML ML JMLR ArXiv:cs.LG