تعریف
در یادگیری تقویتی، الگوریتمی است که اجازه میدهد عامل مقدار بهینه تابع Q را در فرآیندهای تصمیمگیری مارکوف با استفاده از معادله بلمن یاد بگیرد. فرآیندهای تصمیمگیری مارکوف محیط را توصیف میکنند.
آخرین ویرایش: ۶ مرداد ۱۴۰۰
در یادگیری تقویتی، الگوریتمی است که اجازه میدهد عامل مقدار بهینه تابع Q را در فرآیندهای تصمیمگیری مارکوف با استفاده از معادله بلمن یاد بگیرد. فرآیندهای تصمیمگیری مارکوف محیط را توصیف میکنند.
آخرین ویرایش: ۶ مرداد ۱۴۰۰