تعریف
در یادگیری تقویتی (reinforcement learning) به سیاستی (policy) گفته میشود که با احتمال اپسیلون (epsilon) از یک سیاست تصادفی و در غیر این صورت از یک سیاست حریصانه پیروی کند. به عنوان مثال، اگر اپسیلون ۰.۹ باشد، در این صورت باید در ۹۰٪ مواقع از سیاست تصادفی و در ۱۰٪ مواقع از سیاست حریصانه پیروی کرد.
در قسمتهای (episode) پیاپی، الگوریتم مقدار اپسیلون را کاهش میدهد تا به حای دنبال کردن یه سیاست تصادفی، از سیاست حریصانه پیروی کند. با تغییر سیاست، عامل (agent) ابتدا به صورت تصادفی محیط (environment) را جستجو میکند و سپس به صورت حریصانه از نتایج جستجوهای تصادفی بهره میبرد.
آخرین ویرایش: ۱۴ شهریور ۱۳۹۹