تعریف
در یادگیری عمیق Q، شبکه عصبیای است که یک تقریب پایدار از شبکه عصبی اصلی باشد که در آن شبکه عصبی اصلی، یک تابع Q یا یک خطمشی را پیاده سازی میکند. میتوان شبکه اصلی را روی مقادیر Q پیشبینی شده توسط شبکه هدف آموزش داد تا از حلقهی بازخوردی که در هنگام تمرین شبکه اصلی روی مقادیر Q که توسط خودش پیشبینی میشود جلوگیری کرد. با اجتناب از این بازخورد، آموزش تمرین افزایش مییابد.
آخرین ویرایش: ۲۳ آبان ۱۳۹۹