تعریف در یادگیری تقویتی، به سیاستی گفته میشود که اعمال را به صورت تصادفی انتخاب میکند. arrow-left-small icon قبلی arrow-left-small icon بعدی آخرین ویرایش: ۱۴ مرداد ۱۴۰۰ github icon ویرایش این ترجمه