تعریف
یک تکنیک مربوط به DQN در یادگیری تقویتی که با هدف کاهش همبستگی زمانی در مجموعهدادههای آموزش استفاده میشود. عامل انتقال بین حالتها را در یک بافر تکرار ذخیره میکند، و سپس با نمونهگیری از انتقالهای درون بافر تکرار دادههای آموزش را ایجاد میکند.
آخرین ویرایش: ۲۰ شهریور ۱۳۹۹