Apakah validasi hold-out merupakan perkiraan yang lebih baik untuk “mendapatkan data baru” daripada k-fold CV?

Saya telah memikirkan kembali jawaban yang saya berikan pada pertanyaan beberapa minggu yang lalu

Hold-out cross-validation menghasilkan satu set tes yang dapat digunakan berulang kali untuk demonstrasi. Kita semua tampaknya setuju bahwa ini dalam banyak hal adalah fitur negatif, karena satu set keluar mungkin menjadi non-representatif melalui keacakan. Selain itu, Anda bisa berakhir overfitting ke data tes dengan cara yang sama Anda bisa menyesuaikan dengan data pelatihan.

Namun, bagi saya kelihatannya sifat statis dari sampel yang diadakan adalah perkiraan yang lebih baik dari "mendapatkan lebih banyak data" daripada k-fold CV, dan menghindari masalah rata-rata melintasi lipatan. Namun, saya tidak dapat menemukan dasar statistik apa pun untuk perasaan yang saya miliki ini. Apakah ada logika dalam intuisi saya?

Sebagai contoh, apa yang ada dalam pikiran saya untuk proyek yang akan datang adalah pertama-tama menggunakan validasi hold-out untuk membangun dan menguji model, kemudian sebagai langkah validasi menggambar kembali set hold-out beberapa kali untuk menunjukkan bahwa perkiraan saya kesalahan prediksi ( pada set tes) kuat untuk kesalahan pengambilan sampel dalam set tes. Apakah ini ide yang buruk karena alasan apa pun? Pertanyaan ini diajukan sebelumnya tetapi tidak pernah menerima jawaban.

cross-validation

— shadowtalker
sumber

IMHO salah satu sifat terburuk dari validasi hold-out adalah psikologis daripada statistik: Saya melihat banyak hold-out yang ditafsirkan seolah-olah itu adalah eksperimen validasi independen (dengan independensi sudah pada tingkat eksperimental), meskipun banyak dari masalah krusial yang saya lihat dengan validasi resampling dapat dan akan terjadi sama dengan hold-out juga (masalah yang muncul dari pemisahan yang tidak tepat).

Selain itu, IMHO hampir sama dengan resampling (setidaknya seperti yang saya lihat dilakukan dalam praktek). Perbedaannya adalah

jumlah total kasus yang diuji sebenarnya lebih rendah (dan akibatnya perkiraannya kurang pasti).
Dengan hold-out, kinerja diklaim untuk model yang benar-benar diuji, bukan untuk model yang sebenarnya tidak diuji yang dibangun dari traffing hold-out ditambah data uji hold-out. Resampling mengklaim bahwa kinerja yang diukur adalah perkiraan yang baik untuk kinerja model yang terakhir. Tapi saya juga melihat pendekatan hold-out menggunakan cara ini ("set validasi").

Esbensen dan Geladi: Prinsip Validasi yang Tepat: penggunaan dan penyalahgunaan re-sampling untuk validasi, Journal of Chemometrics, 24 (3-4), 168-187 berpendapat bahwa dalam istilah praktis, keduanya tidak terlalu baik perkiraan untuk set data (validasi eksperimen) yang memungkinkan untuk mengukur karakteristik kinerja yang sangat menarik.

Anda bisa berakhir overfitting ke data uji dengan cara yang sama Anda bisa menyesuaikan ke data pelatihan.

Sama seperti dengan validasi lainnya: jika Anda melakukan pemodelan / pemilihan model berbasis data, tingkat validasi independen lain diperlukan. Saya tidak melihat perbedaan apa pun di sini antara skema penahan dan pengamplasan ulang.

pertama-tama menggunakan validasi hold-out untuk membangun dan menguji model, kemudian sebagai langkah validasi menggambar kembali set hold-out beberapa kali untuk menunjukkan bahwa perkiraan kesalahan prediksi (pada set tes) kuat untuk kesalahan sampel dalam pengujian set. Apakah ini ide yang buruk karena alasan apa pun?

Saya kira begitu, ya: IMHO set-up bersarang harus digunakan
(kecuali jika Anda ingin menyarankan bahwa validasi hold-out dapat dan harus diulang juga - itu adalah pendekatan yang valid yang berbeda dari iterasi / validasi set berulang hanya dengan interpretasi : apakah pernyataan kinerja tentang banyak model yang benar-benar diuji atau apakah diekstrapolasi ke satu model yang dibangun dari semua data).

— cbeleites tidak senang dengan SX
sumber