تعریف
یک پیادهسازی خاص از الگوریتم کاهش شیب (gradient descent). بهینهسازهای پرکاربرد عبارتند از:
- بهینهساز AdaGrad که از ADAptive GRADient descent (کاهش شیب سازگار) گرفته شده است.
- بهینهساز Adam که از ADAptive with Momentum (سازگار با تکانه) گرفته شده است.
بهینهسازهای مختلف ممکن است با ایجاد تفاوت یک یا چند مورد از مفاهیم زیر تاثیر الگوریتم کاهش شیب (gradient descent) را بر روی یک مجموعه داده آموزش تغییر دهند:
- تکانه (momentum)
- بسامد بهروزرسانی
- پراکندگی / نظمدهی (Ftrl)
- ریاضیات پیچیدهتر (نزدیک مبدا بودن یا Proximal و ...)
حتی میتوان بهینهسازهای مبتنی بر شبکههای عصبی را نیز متصور شد.
آخرین ویرایش: ۱۴ خرداد ۱۴۰۰