معادله بلمن

Bellman Equation

در یادگیری تقویتی (reinforcement learning) اتحاد زیر به وسیله تابع Q زیر بهینه می‌شود.

یادگیری تقویتی با اعمال این اتحاد به یادگیری Q با قاعده به‌روزرسانی زیر منجر می‌شود:

معادله بلمن علاوه بر یادگیری تقویتی کاربردهایی در برنامه‌نویسی پویا نیز دارد.

قبلی بعدی

آخرین ویرایش: ۲۳ شهریور ۱۳۹۹