تعریف
دستهای از الگوریتمها که یک سیاست بهینه را با هدف بیشینه کردن بازده در تعامل با محیط یاد میگیرند. به عنوان مثال، پاداش نهایی اکثر بازیها پیروزی است. یادگیری تقویتی میتواند با ارزیابی حرکات در بازیهای قبلی که در نهایت به پیروزی یا شکست منجر شدهاند در بسیاری از بازیهای پیچیده متخصص شود.
آخرین ویرایش: ۴ شهریور ۱۴۰۰