Markovs beslutsprocess

Den aktuella versionen av sidan har ännu inte granskats av erfarna bidragsgivare och kan skilja sig väsentligt från versionen som granskades den 27 mars 2020; verifiering kräver 1 redigering .

En Markov  -beslutsprocess ( MDP) är en specifikation av ett sekventiellt beslutsproblem för en fullt observerbar miljö med en Markov-övergångsmodell och ytterligare belöningar. Ordet Markov i namnet återspeglar uppfyllandet av Markov-egendomen för sådana processer. En sådan process fungerar som en matematisk grund för att modellera sekventiellt beslutsfattande i situationer där utfallen delvis är slumpmässiga och delvis under beslutsfattarens kontroll. Idag används denna specifikation inom en mängd olika områden, inklusive robotik , automatiserad styrning , ekonomi och tillverkning .

Definition

För att definiera en Markov-beslutsprocess måste vi definiera en 4 - tupel var

Se även