جست‌وجو

فرایند تصمیم گیری مارکوف (MDP)

Markov Decision Process (MDP)

تعریف

یک چارچوب ریاضی است برای مدل‌سازی تصمیم‌گیری در شرایطی که نتایج تا حدودی تصادفی و تا حدودی تحت کنترل یک تصمیم‌گیر است. MDPs برای مطالعه طیف گسترده‌ای از مسائل بهینه سازی که از طریق برنامه‌نویسی پویا و یادگیری تقویتی حل می‌شوند مفید است.

تصویر زیر یک نمونه ساده از MDP است:

این نمونه دارای ۳ حالت (دایره های سبز رنگ) و ۲ عمل (a0 , a1) و ۲ پاداش ( خط های نارنجی رنگ) است.

قبلی بعدی

آخرین ویرایش: ۵ آبان ۱۴۰۰

ویرایش این ترجمه