Saya memiliki beberapa data dan saya ingin membangun model (katakanlah model regresi linier) dari data ini. Pada langkah berikutnya, saya ingin menerapkan Validasi Cuti-Sekali-Keluar (LOOCV) pada model jadi lihat seberapa bagus kinerjanya.
Jika saya mengerti LOOCV benar, saya membangun model baru untuk setiap sampel saya (set tes) menggunakan setiap sampel kecuali sampel ini (set pelatihan). Kemudian saya menggunakan model untuk memprediksi set tes dan menghitung kesalahan .
Pada langkah berikutnya saya mengumpulkan semua kesalahan yang dihasilkan menggunakan fungsi yang dipilih, misalnya rata-rata kesalahan kuadrat. Saya dapat menggunakan nilai-nilai ini untuk menilai kualitas (atau goodness of fit) model.
Pertanyaan: Model mana yang merupakan model nilai-nilai ini berlaku, jadi model mana yang harus saya pilih jika saya menemukan metrik yang dihasilkan dari LOOCV sesuai untuk kasus saya? LOOCV melihat model yang berbeda (di mana n adalah ukuran sampel); model mana yang harus saya pilih?n
- Apakah model yang menggunakan semua sampel? Model ini tidak pernah dihitung selama proses LOOCV!
- Apakah model yang memiliki kesalahan paling sedikit?