Sementara hasil dari set tes pribadi tidak dapat digunakan untuk memperbaiki model lebih lanjut, bukankah pemilihan model dari sejumlah besar model yang dilakukan berdasarkan hasil set tes pribadi? Tidakkah Anda, melalui proses itu sendiri, berakhir overfitting ke set tes pribadi?
Menurut "Pseudo-Matematika dan Charlatanisme Keuangan: Pengaruh Overtest Overfitting pada Out-of-Sample Performance" oleh Bailey et.al. relatif mudah untuk "berpakaian" saat memilih yang terbaik dari sejumlah besar model yang dievaluasi pada dataset yang sama. Apakah itu tidak terjadi dengan papan peringkat pribadi Kaggle?
- Apa justifikasi statistik untuk model dengan kinerja terbaik di papan peringkat pribadi sebagai model yang menggeneralisasi yang terbaik untuk data di luar sampel?
- Apakah perusahaan pada akhirnya menggunakan model yang menang, atau apakah papan peringkat pribadi ada hanya untuk memberikan "aturan main", dan perusahaan sebenarnya lebih tertarik pada wawasan yang muncul dari pembahasan masalah?