Pemahaman saya adalah bahwa bahkan ketika mengikuti prosedur validasi silang dan pemilihan model yang tepat, overfitting akan terjadi jika seseorang mencari model dengan cukup keras , kecuali jika seseorang memaksakan pembatasan pada kompleksitas model, titik. Selain itu, sering kali orang mencoba mempelajari hukuman pada model kompleksitas dari data yang merusak perlindungan yang dapat mereka berikan.
Pertanyaan saya adalah: Seberapa banyak kebenaran dari pernyataan di atas?
Saya sering mendengar praktisi ML berkata: " Di perusahaan / lab saya, kami selalu mencoba setiap model yang tersedia (mis. Dari perpustakaan seperti caret atau scikit-belajar ) untuk melihat mana yang terbaik ". Saya sering berargumen bahwa pendekatan ini dapat dengan mudah dikenakan bahkan jika mereka serius tentang cross-validasi dan tetap bertahan dengan cara apa pun yang mereka inginkan. Terlebih lagi semakin sulit mereka mencari, semakin besar kemungkinan mereka mengenakan pakaian. Dengan kata lain, optimasi berlebihan adalah masalah nyata dan tidak ada heuristik yang dapat membantu Anda melawannya secara sistematis. Apakah saya salah berpikir seperti ini?