Biasanya tentu saja perbedaannya tidak terlalu mencolok, dan begitulah pertanyaan saya - dapatkah Anda memikirkan sebuah contoh ketika hasil dari satu jenis berbeda secara signifikan dari yang lain?
Saya tidak yakin sama sekali perbedaannya tidak terlalu mencolok, dan hanya dalam contoh ad hoc akan terlihat. Kedua metode cross-validasi dan bootstrap (sub-sampling) sangat tergantung pada parameter desain mereka, dan pemahaman ini belum lengkap. Secara umum, hasil dalam k-fold cross-validation sangat tergantung pada jumlah lipatan, sehingga Anda dapat mengharapkan hasil yang selalu berbeda dari apa yang akan Anda amati dalam sub-sampling.
Contoh kasus: katakan bahwa Anda memiliki model linier sejati dengan jumlah parameter tetap. Jika Anda menggunakan validasi silang k-fold (dengan k, diberikan tetap), dan membiarkan jumlah pengamatan menjadi tak terbatas, validasi k-fold silang akan asimtotik tidak konsisten untuk pemilihan model, yaitu, itu akan mengidentifikasi model yang salah dengan probabilitas lebih besar dari 0. Hasil mengejutkan ini disebabkan oleh Jun Shao, "Seleksi Model Linier dengan Cross-Validation", Jurnal Asosiasi Statistik Amerika , 88 , 486-494 (1993), tetapi lebih banyak makalah dapat ditemukan dalam nada ini.
Secara umum, makalah statistik terhormat menentukan protokol validasi silang, tepatnya karena hasilnya tidak invarian. Dalam kasus di mana mereka memilih sejumlah besar lipatan untuk kumpulan data besar, mereka berkomentar dan mencoba untuk memperbaiki bias dalam pemilihan model.