Saya telah memikirkan kembali jawaban yang saya berikan pada pertanyaan beberapa minggu yang lalu
Hold-out cross-validation menghasilkan satu set tes yang dapat digunakan berulang kali untuk demonstrasi. Kita semua tampaknya setuju bahwa ini dalam banyak hal adalah fitur negatif, karena satu set keluar mungkin menjadi non-representatif melalui keacakan. Selain itu, Anda bisa berakhir overfitting ke data tes dengan cara yang sama Anda bisa menyesuaikan dengan data pelatihan.
Namun, bagi saya kelihatannya sifat statis dari sampel yang diadakan adalah perkiraan yang lebih baik dari "mendapatkan lebih banyak data" daripada k-fold CV, dan menghindari masalah rata-rata melintasi lipatan. Namun, saya tidak dapat menemukan dasar statistik apa pun untuk perasaan yang saya miliki ini. Apakah ada logika dalam intuisi saya?
Sebagai contoh, apa yang ada dalam pikiran saya untuk proyek yang akan datang adalah pertama-tama menggunakan validasi hold-out untuk membangun dan menguji model, kemudian sebagai langkah validasi menggambar kembali set hold-out beberapa kali untuk menunjukkan bahwa perkiraan saya kesalahan prediksi ( pada set tes) kuat untuk kesalahan pengambilan sampel dalam set tes. Apakah ini ide yang buruk karena alasan apa pun? Pertanyaan ini diajukan sebelumnya tetapi tidak pernah menerima jawaban.