Argumen yang membuat makalah itu tampak aneh bagi saya.
Menurut makalah, tujuan CV adalah untuk memperkirakan , kinerja prediksi yang diharapkan dari model pada data baru, mengingat bahwa model dilatih pada dataset S yang diamati . Ketika kita melakukan k CV ganda, kita memperoleh perkiraan A dari nomor ini. Karena partisi acak S ke k lipatan, ini adalah variabel acak A ~ f ( A ) dengan mean μ k dan varians σ 2 k . Sebaliknya, n -times-ulang hasil CV perkiraan dengan rata-rata yang samaα2SkA^SkA^∼f(A)μkσ2kn tetapi varians yang lebih kecil σ 2 k / n .μkσ2k/n
Jelas, . Bias ini adalah sesuatu yang harus kita terima.α2≠μk
Namun, kesalahan yang diharapkan akan lebih besar untuk lebih kecil n , dan akan menjadi yang terbesar untuk n = 1 , setidaknya di bawah asumsi yang masuk akal tentang f ( A ) , misalnya ketika A ˙ ~ N ( μ k , σ 2 k / n ) . Dengan kata lain, CV berulang memungkinkan untuk mendapatkan estimasi yang lebih tepat dari μ kE[|α2−A^|2]nn=1f(A)A^∼˙N(μk,σ2k/n)μkdan itu adalah hal yang baik karena memberikan perkiraan lebih tepat .α2
Oleh karena itu, pengulangan CV lebih ketat daripada CV yang tidak diulang.
Penulis tidak membantah hal itu! Sebaliknya mereka mengklaim, berdasarkan simulasi, bahwa
mengurangi varians [dengan mengulangi CV] adalah, dalam banyak kasus, tidak terlalu berguna, dan pada dasarnya merupakan pemborosan sumber daya komputasi.
Ini hanya berarti bahwa dalam simulasi mereka cukup rendah; dan memang, ukuran sampel terendah yang mereka gunakan adalah 200 , yang mungkin cukup besar untuk menghasilkan σ 2 k kecil . (Perbedaan dalam estimasi yang diperoleh dengan CV yang tidak diulang dan CV yang diulang 30 kali selalu kecil.) Dengan ukuran sampel yang lebih kecil orang dapat mengharapkan varians antar-pengulangan yang lebih besar.σ2k200σ2k
CAVEAT: Interval kepercayaan diri!
Poin lain yang penulis buat adalah itu
pelaporan interval kepercayaan [dalam validasi silang berulang] menyesatkan.
Tampaknya mereka mengacu pada interval kepercayaan untuk rata-rata di seluruh pengulangan CV. Saya sepenuhnya setuju bahwa ini adalah hal yang tidak berarti untuk dilaporkan! Semakin sering CV diulang, semakin kecil CI ini, tetapi tidak ada yang tertarik pada CI di sekitar perkiraan kami tentang ! Kami peduli tentang CI di sekitar perkiraan kami α 2 .μkα2
Para penulis juga melaporkan CI untuk CV yang tidak diulang, dan tidak sepenuhnya jelas bagi saya bagaimana CI ini dibangun. Saya kira ini adalah CI untuk cara melintasi lipatan . Saya berpendapat bahwa CI ini juga tidak ada artinya!k
Lihatlah salah satu contoh mereka: akurasi untuk adult
dataset dengan algoritma NB dan 200 ukuran sampel. Mereka mendapat 78,0% dengan CV yang tidak diulang, CI (72,26, 83,74), 79,0% (77,21, 80,79) dengan CV yang diulang 10 kali, dan 79,1% (78,07, 80,13) dengan CV yang diulang 30 kali. Semua CI ini tidak berguna, termasuk yang pertama. Estimasi terbaik dari adalah 79,1%. Ini sesuai dengan 158 keberhasilan dari 200. Ini menghasilkan interval kepercayaan binomial 95% dari (72,8, 84,5) - lebih luas bahkan dari yang pertama kali dilaporkan. Jika saya ingin melaporkan beberapa CI, ini yang akan saya laporkan.μk
LEBIH BANYAK CAVEAT UMUM: varian CV.
Anda menulis bahwa CV berulang
telah menjadi teknik populer untuk mengurangi varian cross-validation.
Orang harus sangat jelas apa yang dimaksud dengan "varian" dari CV. CV yang berulang mengurangi varian estimasi . Perhatikan bahwa dalam kasus CV satu-keluar (LOOCV), ketika k = N , varians ini sama dengan nol. Namun demikian, sering dikatakan bahwa LOOCV sebenarnya memiliki varian tertinggi dari semua CV yang mungkin dilipat k . Lihat misalnya di sini: Variasi dan bias dalam cross-validation: mengapa CV cuti-keluar-satu memiliki varian yang lebih tinggi?μkk=Nk
Mengapa demikian? Hal ini karena LOOCV memiliki varian tertinggi sebagai perkiraan yang merupakan kinerja prediktif yang diharapkan dari model data baru ketika dibangun pada dataset baru dengan ukuran yang sama seperti S . Ini adalah masalah yang sangat berbeda.α1S