Hold-out sering digunakan identik dengan validasi dengan set tes independen, meskipun ada perbedaan penting antara pemisahan data secara acak dan merancang eksperimen validasi untuk pengujian independen.
Set tes independen dapat digunakan untuk mengukur kinerja generalisasi yang tidak dapat diukur dengan melakukan resampling atau validasi hold-out, misalnya kinerja untuk kasus mendatang yang tidak diketahui (= kasus yang diukur kemudian, setelah pelatihan selesai). Ini penting untuk mengetahui berapa lama model yang sudah ada dapat digunakan untuk data baru (misalkan instrumen melayang). Secara umum, ini dapat digambarkan sebagai pengukuran kinerja ekstrapolasi untuk menentukan batas penerapan.
Skenario lain di mana penundaan benar-benar dapat bermanfaat adalah: sangat mudah untuk memastikan bahwa pelatihan dan data uji dipisahkan dengan benar - jauh lebih mudah daripada melakukan resampling validasi: misalnya
- memutuskan pemisahan (mis. lakukan penugasan kasus secara acak)
- mengukur
- data pengukuran dan referensi kasus pelatihan => pemodelan \ baik pengukuran maupun referensi kasus uji tidak diserahkan kepada orang yang membuat model.
- model akhir + pengukuran case yang bertahan => prediksi
- bandingkan prediksi dengan referensi untuk kasus-kasus yang ada.
Tergantung pada tingkat pemisahan yang Anda butuhkan, setiap langkah dapat dilakukan oleh orang lain. Sebagai tingkat pertama, tidak menyerahkan data apa pun (bahkan pengukuran) dari kasus uji ke pemodel memungkinkan untuk sangat yakin bahwa tidak ada data uji yang bocor ke dalam proses pemodelan. Pada tingkat kedua, model akhir dan pengukuran test case dapat diserahkan kepada orang lain, dan seterusnya.
Ya, Anda membayarnya dengan efisiensi yang lebih rendah dari perkiraan penunda dibandingkan dengan validasi sampel ulang. Tetapi saya telah melihat banyak makalah di mana saya menduga bahwa validasi resampling tidak memisahkan kasus dengan benar (di bidang saya, kami memiliki banyak data yang dikelompokkan / hierarkis / dikelompokkan).
Saya telah belajar pelajaran saya tentang kebocoran data untuk dilakukan resampling dengan menarik kembali naskah seminggu setelah penyerahan ketika saya mengetahui bahwa saya sebelumnya tidak terdeteksi (dengan menjalankan tes permutasi bersama) kebocoran dalam prosedur pemisahan saya (salah ketik dalam perhitungan indeks).
Kadang-kadang penahanan bisa lebih efisien daripada menemukan seseorang yang bersedia meluangkan waktu untuk memeriksa kode resampling (misalnya untuk data yang dikelompokkan) untuk mendapatkan tingkat kepastian yang sama tentang hasil. Namun, IMHO biasanya tidak efisien untuk melakukan ini sebelum Anda berada di tahap di mana Anda harus mengukur misalnya kinerja masa depan (poin pertama) - dengan kata lain, ketika Anda harus menyiapkan percobaan validasi untuk model yang ada.
OTOH, dalam situasi ukuran sampel kecil, tahan tidak ada pilihan: Anda perlu memegang cukup kasus uji sehingga hasil tes cukup tepat untuk memungkinkan kesimpulan yang diperlukan (ingat: 3 mengoreksi dari 3 kasus uji untuk klasifikasi berarti suatu binomial interval kepercayaan 95% yang berkisar jauh di bawah 50:50 menebak!) Frank Harrell akan menunjuk pada aturan praktis yang setidaknya ca. Diperlukan 100 kasus (uji) untuk mengukur proporsi [seperti fraksi dari kasus yang diprediksi dengan benar] dengan presisi yang berguna.
Pembaruan: ada situasi di mana pemisahan yang tepat sangat sulit untuk dicapai, dan validasi silang menjadi tidak layak. Pertimbangkan masalah dengan sejumlah perancu. Pemisahan itu mudah jika pembaur ini bersarang secara ketat (misalnya penelitian dengan sejumlah pasien memiliki beberapa spesimen dari setiap pasien dan menganalisis sejumlah sel dari masing-masing spesimen): Anda membelah pada level tertinggi dari hirarki pengambilan sampel (berdasarkan pasien) . Tetapi Anda mungkin memiliki perancu independen yang tidak bersarang, misalnya variasi atau varians harian yang disebabkan oleh berbagai eksperimen yang menjalankan tes. Anda kemudian perlu memastikan pemisahan itu independen untuk semuaperancu pada tingkat tertinggi (perancu yang bersarang akan otomatis independen). Menjaga ini sangat sulit jika beberapa perancu hanya diidentifikasi selama penelitian, dan merancang dan melakukan percobaan validasi mungkin lebih efisien daripada berurusan dengan perpecahan yang hampir tidak meninggalkan data baik untuk pelatihan maupun untuk pengujian model pengganti.