تعریف
مقدارهایی که از بقیه مقادیر فاصلهی زیادی دارند. در یادگیری ماشین، هر کدام از موارد زیر دادهی پرت حساب میشوند:
- وزنهایی که قدر مطلق آنها بسیار بزرگ باشد.
- مقدارهای پیشبینی شدهای که از مقادیر واقعی بسیار دور باشند.
- داده های ورودیای که مقدار آنها بیش از تقریبا ۳ برابر انحراف معیار از میانگین دور باشد.
دادههای پرت معمولا در آموزش مدلها اختلال ایجاد میکنند. بریدهسازی (clipping) یکی از راههای مدیریت این دادههاست.
آخرین ویرایش: ۱۴ خرداد ۱۴۰۰