En Markov -beslutsprocess ( MDP) är en specifikation av ett sekventiellt beslutsproblem för en fullt observerbar miljö med en Markov-övergångsmodell och ytterligare belöningar. Ordet Markov i namnet återspeglar uppfyllandet av Markov-egendomen för sådana processer. En sådan process fungerar som en matematisk grund för att modellera sekventiellt beslutsfattande i situationer där utfallen delvis är slumpmässiga och delvis under beslutsfattarens kontroll. Idag används denna specifikation inom en mängd olika områden, inklusive robotik , automatiserad styrning , ekonomi och tillverkning .
För att definiera en Markov-beslutsprocess måste vi definiera en 4 - tupel var