Apakah validasi silang cukup untuk mencegah overfitting?


17

Jika saya memiliki data, dan saya menjalankan klasifikasi (katakanlah hutan acak pada data ini) dengan validasi silang (katakanlah 5 kali lipat), dapatkah saya menyimpulkan bahwa tidak ada kelebihan dalam metode saya?

Jawaban:


20

Tidak semuanya. Namun, validasi silang membantu Anda menilai seberapa banyak metode Anda cocok.

Misalnya, jika data pelatihan Anda R-kuadrat dari regresi adalah 0,50 dan r-kuadrat-crossvalidated adalah 0,48, Anda hampir tidak memiliki overfitting dan Anda merasa baik. Di sisi lain, jika R-kuadrat crossvalidated hanya 0,3 di sini, maka sebagian besar kinerja model Anda datang karena overfitting dan bukan dari hubungan yang sebenarnya. Dalam kasus seperti itu Anda dapat menerima kinerja yang lebih rendah atau mencoba strategi pemodelan yang berbeda dengan overfitting yang lebih sedikit.


8
Saya pikir jawaban ini benar dalam roh, tetapi saya tidak setuju dengan karakterisasi yang terlalu pas pada paragraf kedua. Saya tidak percaya bahwa over fitting terjadi ketika train error - test error> beberapa terikat, sebagai gantinya, saya akan mencirikan over fitting sebagai situasi di mana peningkatan kompleksitas model sedikit cenderung meningkatkan kesalahan tahan. Mengharuskan kereta api dan pengujian Anda kesalahan sebanding sering akan mengakibatkan sangat underfit model.
Matthew Drury

7

Validasi Silang adalah teknik yang baik, tetapi tidak sempurna, untuk meminimalkan pemasangan berlebihan.

Validasi Silang tidak akan berfungsi dengan baik untuk data luar jika data yang Anda miliki tidak mewakili data yang akan Anda coba prediksi!

Berikut adalah dua situasi konkret ketika validasi silang memiliki kelemahan:

  • Anda menggunakan masa lalu untuk memprediksi masa depan: sering kali ada asumsi besar untuk mengasumsikan bahwa pengamatan masa lalu akan datang dari populasi yang sama dengan distribusi yang sama dengan pengamatan masa depan. Validasi silang pada kumpulan data yang diambil dari masa lalu tidak akan melindungi dari ini.
  • Ada bias dalam data yang Anda kumpulkan: data yang Anda amati secara sistematis berbeda dari data yang tidak Anda amati. Misalnya, kita tahu tentang bias responden pada mereka yang memilih untuk melakukan survei.

3
Memiliki dataset Anda yang bukan merupakan representasi yang buruk dari populasi sebenarnya pada umumnya dianggap sebagai masalah terpisah karena terlalu pas. Tentu saja, benar bahwa validasi silang tidak mengatasinya.
Cliff AB

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.