Q-lärande

Q -learning är en metod som används inom artificiell intelligens med ett agentbaserat tillvägagångssätt . Syftar på förstärkningsinlärningsexperiment . Baserat på belöningen från omgivningen bildar agenten en nyttofunktion Q, som därefter ger honom möjlighet att inte slumpmässigt välja en beteendestrategi, utan att ta hänsyn till erfarenheten av tidigare interaktion med omgivningen. En av fördelarna med Q-learning är att det kan jämföra den förväntade nyttan av tillgängliga aktiviteter utan att behöva modellera miljön. Gäller situationer som kan representeras som en Markov beslutsprocess .

Q-learning-algoritm

  1. Initiering :
    1. för varje s och a gör Q[s, a] = RND // initiera hjälpfunktion Q från åtgärd a i situationen s som slumpmässigt för alla indata
  2. Observera :
    1. s' = s // Kom ihåg tidigare tillstånd
    2. a' = a // Kom ihåg tidigare åtgärder
    3. s = FROM_SENSOR // Få aktuella tillstånd från sensorn
    4. r = FROM_SENSOR // Få belöning för tidigare åtgärd
  3. Uppdatering (Utility update):
    1. Q[s',a'] = Q[s',a'] + LF * (r + DF * MAX(Q,s) - Q[s',a'])
  4. Beslut :
    1. a = ARGMAX(Q, s)
    2. TO_ACTIVATOR = a
  5. Upprepa : GÅ TILL 2

Notation

Funktionen MAX(Q,s)

  1. max = minVärde
  2. för varje åtgärd
    1. om Q[s, a] > max då max = Q[s, a]
  3. retur max

ARGMAX(Q,s)

  1. amax = Första av ACTION(er)
  2. för var och en av ACTION(er) gör
    1. om Q[s, a] > Q[s, amax] så är amax = a
  3. retur amax

Litteratur

Se även

Länkar