تعریف
در یادگیری تقویتی، تابعیست که بازده مورد نظر را به ازای رخ دادن یک عمل در یک حالت پیشبینی میکند و سپس سیاست مشخصشده را دنبال میکند.
تابع Q همچنین به نام تابع ارزش حالت-عمل نیز شناخته میشود.
آخرین ویرایش: ۶ مرداد ۱۴۰۰
در یادگیری تقویتی، تابعیست که بازده مورد نظر را به ازای رخ دادن یک عمل در یک حالت پیشبینی میکند و سپس سیاست مشخصشده را دنبال میکند.
تابع Q همچنین به نام تابع ارزش حالت-عمل نیز شناخته میشود.
آخرین ویرایش: ۶ مرداد ۱۴۰۰