Markovs beslutsprocess

Den aktuella versionen av sidan har ännu inte granskats av erfarna bidragsgivare och kan skilja sig väsentligt från versionen som granskades den 27 mars 2020; verifiering kräver 1 redigering .

En Markov -beslutsprocess ( MDP) är en specifikation av ett sekventiellt beslutsproblem för en fullt observerbar miljö med en Markov-övergångsmodell och ytterligare belöningar. Ordet Markov i namnet återspeglar uppfyllandet av Markov-egendomen för sådana processer. En sådan process fungerar som en matematisk grund för att modellera sekventiellt beslutsfattande i situationer där utfallen delvis är slumpmässiga och delvis under beslutsfattarens kontroll. Idag används denna specifikation inom en mängd olika områden, inklusive robotik , automatiserad styrning , ekonomi och tillverkning .

Definition

För att definiera en Markov-beslutsprocess måste vi definiera en 4 - tupel var $(S,A,P_{\cdot }(\cdot ,\cdot ),R_{\cdot }(\cdot ,\cdot ))$

$S$ ändlig uppsättning tillstånd,
$A$ en ändlig uppsättning åtgärder (ofta representerade som uppsättningar tillgängliga från ett tillstånd ), $Som$ $s$
$P_{a}(s,s')=\Pr(s_{t+1}=s'\mid s_{t}=s,a_{t}=a)$ sannolikheten att en handling i ett tillstånd vid tidpunkten kommer att resultera i ett tillstånd vid tidpunkten , $a$ $s$ $t$ $s'$ $t+1$
$R_{a}(s,s')$ belöningen erhållen efter övergången till staten från staten med övergångssannolikhet . $s'$ $s$ $P_{a}(s,s')$

Markovs beslutsprocess

Definition

Se även