Q-lärande

Q -learning är en metod som används inom artificiell intelligens med ett agentbaserat tillvägagångssätt . Syftar på förstärkningsinlärningsexperiment . Baserat på belöningen från omgivningen bildar agenten en nyttofunktion Q, som därefter ger honom möjlighet att inte slumpmässigt välja en beteendestrategi, utan att ta hänsyn till erfarenheten av tidigare interaktion med omgivningen. En av fördelarna med Q-learning är att det kan jämföra den förväntade nyttan av tillgängliga aktiviteter utan att behöva modellera miljön. Gäller situationer som kan representeras som en Markov beslutsprocess .

Q-learning-algoritm

Initiering :
1. för varje s och a gör Q[s, a] = RND // initiera hjälpfunktion Q från åtgärd a i situationen s som slumpmässigt för alla indata
Observera :
1. s' = s // Kom ihåg tidigare tillstånd
2. a' = a // Kom ihåg tidigare åtgärder
3. s = FROM_SENSOR // Få aktuella tillstånd från sensorn
4. r = FROM_SENSOR // Få belöning för tidigare åtgärd
Uppdatering (Utility update):
1. Q[s',a'] = Q[s',a'] + LF * (r + DF * MAX(Q,s) - Q[s',a'])
Beslut :
1. a = ARGMAX(Q, s)
2. TO_ACTIVATOR = a
Upprepa : GÅ TILL 2

Notation

LF är inlärningsfaktorn. Ju högre den är, desto mer litar agenten på den nya informationen.
DF är diskonteringsfaktorn. Ju mindre den är, desto mindre tänker agenten på fördelarna med sina framtida handlingar.

Funktionen MAX(Q,s)

max = minVärde
för varje åtgärd
1. om Q[s, a] > max då max = Q[s, a]
retur max

ARGMAX(Q,s)

amax = Första av ACTION(er)
för var och en av ACTION(er) gör
1. om Q[s, a] > Q[s, amax] så är amax = a
retur amax

Litteratur

Stuart Russell, Peter Norvig, "AI - A Modern Approach"
Machine Learning Proceedings 1991: Proceedings of the Eightth International Workshop (ML91). - Elsevier Science, 2014. - S. 364. - ISBN 978-1-4832-9817-7 .

Se även

Förstärkningsinlärning

Länkar

Maskininlärning och datautvinning
Uppgifter	Klassificeringsproblem Lärande utan lärare Lärarassisterat lärande Regressionsanalys AutoML Föreningens regler Särdragsextraktion Egenskapsträning Ranking utbildning Grammatisk härledning Online lärande
Att lära sig med en lärare	k-närmaste granne metod Naiv Bayes klassificerare beslutsträd Stöd vektor maskin Linjär regression Logistisk tillbakagång perceptron Ensembler av modeller Säckväv förstärkning slumpmässig skog Relevant vektormetod
klusteranalys	k-betyder metod Fuzzy klustringsmetod Hierarkisk klustring EM algoritm BJÖRK BOTA DBSCAN OPTIK Genomsnittlig förskjutning
Dimensionalitetsreduktion	Faktoranalys Huvudkomponentmetoden CCA ICA LDA Icke-negativ matrisexpansion t-SNE
Strukturell prognos	Graph probabilistisk modell Bayesiskt nätverk Dold Markov-modell CRF
Anomali upptäckt	k-närmaste granne metod Lokal utsläppsnivå
Grafisk probabilistiska modeller	Bayesiskt nätverk Markov nätverk Dold Markov-modell
Neurala nätverk	Begränsad Boltzmann-maskin självorganiserande karta Aktiveringsfunktion Sigmoid softmax Radiell basfunktion Ryggförökningsmetod Djup lärning Flerskiktsperceptron Återkommande neurala nätverk långtidsminne Kontrollerat återkommande block Konvolutionellt neuralt nätverk U-Net Autokodare
Förstärkningsinlärning	Markov process Bellmans ekvation Girig algoritm Q-lärande SARSA Temporell skillnad (TD)
Teori	Vapnik-Chervonenkis teori Bias-Dispersion Dilemma Beräkningslärandeteori Empirisk riskminimering Occam lär sig PAC-inlärning Statistisk inlärningsteori
Tidskrifter och konferenser	NeurIPS ICML ML JMLR ArXiv:cs.LG