Perangkat uji dan perangkat validasi silang memiliki tujuan yang berbeda. Jika Anda menjatuhkan salah satunya, Anda kehilangan manfaatnya:
Anda tidak dapat menggunakan set validasi silang untuk mengukur kinerja model Anda secara akurat, karena Anda akan dengan sengaja menyetel hasil Anda untuk mendapatkan metrik terbaik, mungkin ratusan variasi parameter Anda. Oleh karena itu hasil validasi silang cenderung terlalu optimis.
Untuk alasan yang sama, Anda tidak dapat menghapus set validasi silang dan menggunakan set tes untuk memilih parameter hiper, karena Anda cukup banyak dijamin akan melebih-lebihkan seberapa baik model Anda. Di dunia ideal Anda menggunakan set tes sekali saja, atau menggunakannya dalam mode "netral" untuk membandingkan berbagai eksperimen.
Jika Anda memvalidasi silang, menemukan model terbaik, lalu menambahkan data tes untuk dilatih, mungkin (dan dalam beberapa situasi mungkin sangat mungkin) model Anda akan ditingkatkan. Namun, Anda tidak memiliki cara untuk memastikan apakah itu benar-benar terjadi, dan bahkan jika itu terjadi, Anda tidak memiliki perkiraan yang tidak bias tentang kinerja baru tersebut.
Dari menyaksikan banyak kompetisi Kaggle, pengalaman saya adalah bahwa menyetel ujian yang ditetapkan dengan menggunakannya secara berlebihan adalah hal yang nyata, dan itu memengaruhi kompetisi tersebut secara besar-besaran. Sering ada sekelompok pesaing yang telah naik papan peringkat publik dan memilih model terbaik mereka dalam ujian (papan peringkat publik secara efektif merupakan set tes), sementara tidak begitu teliti dalam validasi silang mereka. . . para pesaing ini menjatuhkan papan peringkat ketika set tes baru diperkenalkan pada akhirnya.
Salah satu pendekatan yang masuk akal adalah menggunakan kembali (latih + cv) data untuk melatih kembali menggunakan hyper-params yang Anda temukan, sebelum pengujian. Dengan begitu Anda bisa melatih lebih banyak data, dan Anda masih mendapatkan ukuran kinerja independen pada akhirnya.
Jika Anda ingin mendapatkan lebih dari validasi silang, pendekatan yang biasa adalah k-fold cross validation . Trik umum dalam kompetisi Kaggle adalah menggunakan validasi k-fold cross, dan alih-alih menggabungkan kembali data ke dalam set pelatihan yang lebih besar (train + cv), untuk mengabadikan atau menumpuk hasil cv ke dalam meta-model.
Terakhir, selalu periksa apakah pemisahan Anda untuk validasi dan pengujian kuat terhadap kemungkinan korelasi dalam kumpulan data Anda.