Apakah selalu ide yang baik untuk berlatih dengan dataset lengkap setelah cross-validation ? Kata lain, itu ok untuk melatih dengan semua sampel dalam dataset saya dan tidak bisa memeriksa apakah ini pas tertentu overfits ?
Beberapa latar belakang masalah:
Katakanlah saya memiliki keluarga model parametrized oleh . Katakan juga bahwa saya memiliki satu set titik data dan bahwa saya melakukan pemilihan model dengan k-fold cross-validation untuk memilih model yang paling menggeneralisasi data. N
Untuk pemilihan model, saya dapat melakukan pencarian (mis. Pencarian grid) pada dengan, misalnya, menjalankan k-fold cross-validation untuk setiap kandidat. Di setiap lipatan dalam validasi silang, saya berakhir dengan model terpelajar . βα
Inti dari cross-validation adalah bahwa untuk setiap lipatan ini saya dapat memeriksa apakah model yang dipelajari memiliki overfit, dengan mengujinya pada "data yang tidak terlihat". Bergantung pada hasilnya, saya dapat memilih model dipelajari untuk parameter yang digeneralisasi terbaik selama validasi silang dalam pencarian kisi.→ α terbaik
Sekarang, mengatakan bahwa setelah pemilihan model , saya ingin menggunakan semua yang poin dalam dataset saya dan mudah-mudahan belajar model yang lebih baik. Untuk ini saya bisa menggunakan parameter sesuai dengan model yang saya pilih selama pemilihan model, dan kemudian setelah pelatihan tentang dataset lengkap, saya akan mendapatkan model yang baru dipelajari . Masalahnya adalah, jika saya menggunakan semua poin dalam dataset saya untuk pelatihan, saya tidak dapat memeriksa apakah model yang baru dipelajari ini cocok dengan data yang tidak terlihat. Apa cara yang tepat untuk memikirkan masalah ini?→ α b e s t β f u l l β f u l l