Sementara Kasra Manshaei memberikan jawaban umum yang baik (+1), saya ingin memberikan contoh yang mudah dimengerti.
Pikirkan masalah yang sangat sederhana: Menyesuaikan fungsi f: [ 0 , 1 ] → R. Untuk melakukannya, Anda mengambil model dari kelas polinomial. Demi argumen, katakanlah Anda mengambil polinomial derajat 0. Kapasitas model ini sangat terbatas karena hanya dapat memenuhi konstanta. Ini pada dasarnya akan menebak nilai rata-rata (tergantung pada fungsi kesalahan, tentu saja, tetapi tetap sederhana). Jadi relatif cepat Anda akan memiliki perkiraan yang cukup bagus tentang apa parameter terbaik untuk model semacam ini. Kesalahan pengujian dan pelatihan Anda akan hampir identik, tidak peduli berapa banyak contoh yang Anda tambahkan. Masalahnya bukan bahwa Anda tidak memiliki cukup data, masalahnya adalah bahwa model Anda tidak cukup kuat: Anda kurang pakaian .
Jadi mari kita pergi sebaliknya: Katakan Anda memiliki 1000 titik data. Mengetahui sedikit matematika, Anda memilih polinomial tingkat 999. Sekarang Anda dapat menyesuaikan data pelatihan dengan sempurna. Namun, data Anda mungkin hanya cocok dengan data terlalu sempurna. Misalnya, lihat (dari blog saya )
Dalam hal ini, Anda memiliki model lain yang juga cocok dengan data. Jelas, model biru tampak agak tidak alami di antara titik data. Model itu sendiri mungkin tidak dapat menangkap jenis distribusi dengan baik, sehingga membatasi model untuk sesuatu yang lebih sederhana sebenarnya dapat membantunya. Ini bisa menjadi contoh overfitting .