Saya pikir jawaban yang diterima saat ini tidak lengkap dengan cara yang tidak menguntungkan. Saya tidak setuju dengan kalimat itu
Tujuan validasi silang adalah untuk mengidentifikasi parameter pembelajaran yang menggeneralisasi dengan baik di seluruh sampel populasi yang kita pelajari dari setiap lipatan.
Ini memang satu aplikasi yang sangat penting dari validasi silang, tetapi bukan satu-satunya. Biasanya, Anda ingin melakukan dua hal:
- Bangun model terbaik yang Anda bisa
- Dapatkan kesan akurat tentang seberapa baik kinerjanya
Sekarang, untuk menyelesaikan tujuan 1 tergantung pada algoritma Anda, Anda mungkin perlu menyetel beberapa hiperparameter dan ini memang sering dilakukan dengan validasi silang. Tetapi ini belum membantu Anda dengan tujuan 2. Untuk ini, pada dasarnya Anda perlu membuat validasi silang, seperti ini:
- Pisahkan seluruh data menjadi n lipatan
- Untuk masing-masing, lipat terpisah data pelatihan lagi menjadi subfold
- Gunakan validasi silang pada subfold untuk mempelajari hiperparameter yang baik
- Dengan hyperparameter ini membangun model pada data pelatihan lipatan itu
- Uji model pada data uji
- Ulangi pada lipatan berikutnya
Untuk membangun model yang baik, Anda hanya perlu validasi salib batin. Anda masih perlu melakukannya untuk mendapatkan model yang bagus. Tetapi untuk mendapatkan perkiraan yang baik dari kinerja model Anda, Anda perlu melakukan seluruh proses pembangunan model di dalam skema validasi silang. Ini juga termasuk langkah-langkah seperti imputasi, dll.