تعریف
در یادگیری تقویتی، با توجه به یک خط مشی و یک حالت خاص، بازده مجموع تمام امتیازاتی است که عامل انتظار دارد با دنبال کردن خط مشی از یک حالت تا پایان یک قسمت بدست بیاورد.
عامل بابت تاخیر نقل و انتقال بین حالتها، یک ضریب کاهشی را برای محاسبهی امتیاز در نظر میگیرد.
بنابراین اگر ضریب کاهشی γ باشد و امتیازها را تا انتهای قسمت مشخص کنیم، محاسبه بازده به شرح زیر است:
آخرین ویرایش: ۵ شهریور ۱۴۰۰