تعریف
یک چارچوب ریاضی است برای مدلسازی تصمیمگیری در شرایطی که نتایج تا حدودی تصادفی و تا حدودی تحت کنترل یک تصمیمگیر است. MDPs برای مطالعه طیف گستردهای از مسائل بهینه سازی که از طریق برنامهنویسی پویا و یادگیری تقویتی حل میشوند مفید است.
تصویر زیر یک نمونه ساده از MDP است:
این نمونه دارای ۳ حالت (دایره های سبز رنگ) و ۲ عمل (a0 , a1) و ۲ پاداش ( خط های نارنجی رنگ) است.
آخرین ویرایش: ۵ آبان ۱۴۰۰