Apakah papan peringkat pribadi Kaggle merupakan prediktor yang baik untuk kinerja out-of-sample dari model pemenang?

Sementara hasil dari set tes pribadi tidak dapat digunakan untuk memperbaiki model lebih lanjut, bukankah pemilihan model dari sejumlah besar model yang dilakukan berdasarkan hasil set tes pribadi? Tidakkah Anda, melalui proses itu sendiri, berakhir overfitting ke set tes pribadi?

Menurut "Pseudo-Matematika dan Charlatanisme Keuangan: Pengaruh Overtest Overfitting pada Out-of-Sample Performance" oleh Bailey et.al. relatif mudah untuk "berpakaian" saat memilih yang terbaik dari sejumlah besar model yang dievaluasi pada dataset yang sama. Apakah itu tidak terjadi dengan papan peringkat pribadi Kaggle?

Apa justifikasi statistik untuk model dengan kinerja terbaik di papan peringkat pribadi sebagai model yang menggeneralisasi yang terbaik untuk data di luar sampel?
Apakah perusahaan pada akhirnya menggunakan model yang menang, atau apakah papan peringkat pribadi ada hanya untuk memberikan "aturan main", dan perusahaan sebenarnya lebih tertarik pada wawasan yang muncul dari pembahasan masalah?

model-selection overfitting out-of-sample

— rinspy
sumber

Agak terkait: stats.stackexchange.com/q/235591

— Kodiologist

Anda bisa melihat perbedaan antara skor pribadi dan publik. Orang bisa berpendapat bahwa model non-overfitted harus mencapai kinerja yang sama pada kedua set data.

— shadowtalker

@shadowtalker Itu memang akan menjadi cara yang baik untuk mendeteksi overfitting, tetapi yang sebenarnya kami minati adalah kekuatan prediktif out-of-sample model, bukan tingkat overfitting. Model pakaian berlebih - yaitu model yang bekerja jauh lebih baik dalam sampel daripada sampel keluar - mungkin memiliki kinerja sampel yang lebih baik daripada model yang tidak overfit. Saya tidak memiliki referensi di tangan, tetapi saya percaya bahwa sering terjadi dalam domain yang kompleks, misalnya visi komputer, ketika menggunakan model yang kompleks, misalnya CNN.

— rinspy

Baik poin yang Anda sajikan adil, namun saya pikir ada masalah yang jauh lebih nyata dengan orang-orang yang overfitting di papan publik .

Ini mungkin terjadi ketika Anda melakukan 100 atau lebih pengiriman, set tes publik pada akhirnya akan kehabisan pilihan hyperparameter Anda dan dengan demikian sesuai. Saya pikir leaderboard pribadi diperlukan dalam hal itu.

— Sef
sumber