تعریف در یادگیری تقویتی، خطمشیای که همیشه عملی با بالاترین بازده مورد انتظار را انتخاب میکند. arrow-left-small icon قبلی arrow-left-small icon بعدی آخرین ویرایش: ۷ شهریور ۱۳۹۹ github icon ویرایش این ترجمه