Saya percaya bahwa ketika menanyakan tentang terlalu pas pewawancara sedang mencari "jawaban buku teks" sementara Anda pergi beberapa langkah setelah itu.
Gejala over fitting adalah bahwa kinerja classifier pada set kereta lebih baik dari pada set tes. Saya merujuk jawaban ini sebagai "jawaban buku teks" karena ini adalah jawaban umum dan perkiraan yang masuk akal.
Perhatikan bahwa jawaban ini memiliki banyak ujung terbuka. Misalnya, berapa banyak perbedaan overfitting? . Juga, perbedaan dalam kinerja antara set data tidak selalu karena overfitting. Di sisi lain, overfitting, tidak serta merta menghasilkan perbedaan kinerja yang signifikan pada kedua dataset.
Validasi silang adalah teknik untuk mengevaluasi kinerja pelajar (misalnya, pohon keputusan) pada data yang tidak dilihatnya sebelumnya. Namun, overfitting mengacu pada model tertentu (misalnya, jika "f1" maka dan bukan "f2" memprediksi True). Ini akan menunjukkan kepada Anda kecenderungan pelajar untuk menyesuaikan diri dengan data ini, tetapi tidak akan menjawab apakah model spesifik Anda dilengkapi berlebihan.
Untuk melengkapi model ini akan membutuhkan kompleksitas dan itu adalah regularisasi yang membantu. Ini membatasi (atau memperdagangkan) kompleksitas model. Perhatikan bahwa sumber overfitting lainnya adalah ukuran set hipotesis (dapat dianggap sebagai jumlah model yang mungkin). Memutuskan di muka untuk menggunakan set hipotesis terbatas adalah cara lain untuk menghindari overfitting.