Biarkan saya menambahkan beberapa poin ke jawaban bagus yang sudah ada di sini:
K-fold bersarang vs K-lipat berulang: k-fold bersarang dan berulang adalah hal yang sama sekali berbeda, digunakan untuk tujuan yang berbeda.
- Seperti yang sudah Anda ketahui , nested bagus jika Anda ingin menggunakan inner cv untuk pemilihan model.
- diulang: IMHO Anda harus selalu mengulangi k-fold cv [lihat di bawah].
Karena itu saya merekomendasikan untuk mengulangi validasi k-fold cross bersarang .
Laporan yang lebih baik "Statistik estimator kami, misalnya interval kepercayaan, varians, rata-rata, dll. Pada sampel lengkap (dalam hal ini sampel CV)." :
Yakin. Namun, Anda harus menyadari fakta bahwa Anda tidak akan (dengan mudah) dapat memperkirakan interval kepercayaan hanya dengan hasil validasi silang. Alasannya adalah, sebanyak apa pun Anda melakukan resample, jumlah kasus aktual yang Anda lihat terbatas (dan biasanya agak kecil - jika tidak, Anda tidak akan peduli dengan perbedaan ini).
Lihat misalnya Bengio, Y. dan Grandvalet, Y .: Tidak Ada Penaksir Tidak Bervariasi dari Varians K-Fold Cross-Validation Journal of Machine Learning Research, 2004, 5, 1089-1105 .
Namun, dalam beberapa situasi Anda tetap dapat membuat estimasi varians: Dengan validasi k-fold berulang, Anda bisa mendapatkan ide apakah ketidakstabilan model berperan. Dan varians terkait ketidakstabilan ini sebenarnya adalah bagian dari varians yang dapat Anda kurangi dengan validasi silang berulang. (Jika model Anda sangat stabil, setiap pengulangan / iterasi validasi silang akan memiliki prediksi yang persis sama untuk setiap kasus. Namun, Anda masih memiliki varian karena pilihan / komposisi aktual dari kumpulan data Anda). Jadi ada batasan untuk varian yang lebih rendah dari validasi k-fold cross berulang. Melakukan lebih banyak pengulangan / iterasi tidak masuk akal, karena varians yang disebabkan oleh fakta bahwa pada akhirnya hanya kasus nyata yang diuji tidak terpengaruh. n
Varians yang disebabkan oleh fakta bahwa pada akhirnya hanya kasus nyata yang diuji yang dapat diestimasi untuk beberapa kasus khusus, misalnya kinerja pengklasifikasi yang diukur dengan proporsi seperti hit rate, tingkat kesalahan, sensitivitas, spesifisitas, nilai prediksi dan sebagainya. : mereka mengikuti distribusi binomial Sayangnya, ini berarti bahwa mereka memiliki varian yang sangat besar dengan nilai kinerja sebenarnya dari model, yang diamati, dan ukuran sampel dalam penyebut fraksi. Ini memiliki maksimum untuknσ2(p^)=1np(1−p)pp^np=0.5. Anda juga dapat menghitung interval kepercayaan mulai dari pengamatan. (@Frank Harrell akan berkomentar bahwa ini bukan aturan penilaian yang tepat, jadi Anda tidak boleh menggunakannya - yang terkait dengan varian yang sangat besar). Namun, IMHO mereka berguna untuk mendapatkan batas konservatif (ada aturan penilaian yang lebih baik, dan perilaku buruk fraksi ini adalah batas kasus terburuk untuk aturan yang lebih baik),
lihat misalnya C. Beleites, R. Salzer dan V. Sergo: Validasi Model Klasifikasi Lunak menggunakan Keanggotaan Kelas Parsial: Konsep Diperpanjang Kepekaan & Co diterapkan untuk Grading Jaringan Astrocytoma, Chemom. Intell. Laboratorium. Syst., 122 (2013), 12 - 22.
Jadi ini memungkinkan saya membalikkan argumentasi Anda terhadap penolakan :
- Tidak melakukan resampling sendirian (tentu saja) memberi Anda perkiraan varians yang baik,
- OTOH, jika Anda dapat berargumentasi tentang varian hingga-uji-sampel-ukuran estimasi validasi silang, itu juga memungkinkan untuk bertahan.
Estimator kami untuk pengukuran tunggal ini akan dilatih pada perangkat (misalnya perangkat CV) yang lebih kecil dari sampel awal kami karena kami harus menyediakan ruang untuk perangkat hold-out. Ini menghasilkan estimasi yang lebih bias (pesimistis) dalam P1.
Tidak harus (jika dibandingkan dengan k-fold) - tetapi Anda harus menukar: set hold-out kecil (mis. dari sampel => bias rendah (≈ sama dengan k-fold cv), varian tinggi (> k-lipat cv, kira-kira dengan faktor k).1k
Tampak bagi saya bahwa pelaporan pada set tes tahan adalah praktik buruk karena analisis sampel CV lebih informatif.
Biasanya ya. Namun, perlu juga diingat bahwa ada jenis kesalahan penting (seperti drift) yang tidak dapat diukur / dideteksi dengan melakukan resampling validasi.
Lihat misalnya Esbensen, KH dan Geladi, P. Prinsip Validasi yang Tepat: penggunaan dan penyalahgunaan pengambilan sampel ulang untuk validasi, Journal of Chemometrics, 2010, 24, 168-187
tetapi bagi saya terlihat bahwa untuk jumlah yang sama dari total model yang dilatih (total # lipatan) yang diulang K-fold akan menghasilkan estimator yang kurang bias dan lebih akurat daripada K-fold bersarang. Untuk melihat ini:
K-fold berulang menggunakan fraksi yang lebih besar dari total sampel kami daripada K-fold bersarang untuk K yang sama (yaitu mengarah ke bias yang lebih rendah)
Saya akan mengatakan tidak untuk ini: tidak masalah bagaimana model pelatihan menggunakan sampel pelatihannya, selama model pengganti dan "nyata" model menggunakannya dalam sama cara. (Saya melihat validasi / estimasi silang-dalam hiper-parameter sebagai bagian dari pengaturan model).
Hal-hal terlihat berbeda jika Anda membandingkan model pengganti yang dilatih termasuk optimasi parameter-hip dengan model "yang" dilatih pada parameter hiper-tetap. Tapi IMHO yang menggeneralisasi dari apel ke 1 oranye.k−1kn
k
100 iterasi hanya akan memberikan 10 pengukuran estimator kami dalam K-fold bersarang (K = 10), tetapi 100 pengukuran dalam K-fold (lebih banyak pengukuran mengarah ke varian yang lebih rendah pada P2)
Apakah ini membuat perbedaan tergantung pada ketidakstabilan model (pengganti), lihat di atas. Untuk model stabil itu tidak relevan. Jadi mungkin apakah Anda melakukan 1000 atau 100 pengulangan / iterasi luar.
Dan makalah ini secara definitif menjadi bagian dari daftar bacaan tentang topik ini:
Cawley, GC dan Talbot, NLC Over-fitting dalam Pemilihan Model dan Bias Seleksi Selanjutnya dalam Evaluasi Kinerja, Journal of Machine Learning Research, 2010, 11, 2079-2107