Saya punya pertanyaan tentang proses validasi silang. Saya berada di tengah-tengah kursus Pembelajaran Mesin di Cursera. Salah satu topiknya adalah tentang validasi silang. Saya merasa agak sulit untuk diikuti. Saya tahu mengapa kami membutuhkan CV karena kami ingin model kami bekerja dengan baik pada data (tidak diketahui) di masa depan dan CV mencegah overfitting. Namun, prosesnya sendiri membingungkan.
Apa yang saya pahami adalah bahwa saya membagi data menjadi 3 himpunan bagian: pelatihan, validasi, dan tes. Train and Validation adalah untuk menemukan kompleksitas model yang optimal. Yang tidak saya mengerti adalah bagian ketiga. Saya mengerti saya mengambil sejumlah fitur untuk model, melatihnya dan memvalidasinya pada subset Validasi dan mencari Fungsi Biaya minimum ketika saya mengubah struktur. Ketika saya menemukannya, saya menguji model pada bagian Tes. Jika saya telah menemukan Fungsi Biaya minimum pada subset Validasi, mengapa saya perlu mengujinya lagi pada subset Tes ???
Bisakah seseorang tolong menjelaskan ini untuk saya?
Terima kasih