Pertanyaan yang sangat menarik, saya harus membaca makalah yang Anda berikan ... Tapi mungkin ini akan memulai kita ke arah jawaban:
Saya biasanya menangani masalah ini dengan cara yang sangat pragmatis: Saya mengulangi validasi k-fold dengan split acak baru dan menghitung kinerja seperti biasa untuk setiap iterasi. Sampel uji keseluruhan kemudian sama untuk setiap iterasi, dan perbedaan berasal dari perbedaan data.
Laporan I ini misalnya sebagai persentil ke 5 hingga 95 dari kinerja yang diamati. menukar hingga sampel untuk sampel baru dan membahasnya sebagai ukuran ketidakstabilan model.nk- 1
Catatan: Saya tidak dapat menggunakan formula yang membutuhkan ukuran sampel. Karena data saya berkerumun atau struktur hierarkis (banyak pengukuran yang serupa tetapi tidak diulang dari kasus yang sama, biasanya beberapa [ratusan] lokasi berbeda dari spesimen yang sama) Saya tidak tahu ukuran sampel yang efektif.
perbandingan dengan bootstrap:
iterasi menggunakan pemisahan acak baru.
perbedaan utama adalah resampling dengan (bootstrap) atau tanpa penggantian (cv).
biaya komputasi hampir sama, karena saya akan memilih no dari iterasi cv no dari bootstrap iterations / k, yaitu menghitung total no model yang sama.≈
bootstrap memiliki kelebihan dibandingkan cv dalam hal beberapa sifat statistik (benar tanpa gejala, mungkin Anda membutuhkan iterasi yang lebih sedikit untuk mendapatkan perkiraan yang baik)
Namun, dengan cv Anda memiliki keuntungan bahwa Anda dijamin akan melakukannya
- jumlah sampel pelatihan yang berbeda adalah sama untuk semua model (penting jika Anda ingin menghitung kurva belajar)
- setiap sampel diuji tepat satu kali dalam setiap iterasi
beberapa metode klasifikasi akan membuang sampel berulang, sehingga bootstrap tidak masuk akal
Varians untuk kinerja
jawaban singkat: ya masuk akal untuk berbicara tentang varians dalam situasi di mana hanya {0,1} hasil ada.
Lihat distribusi binomial (k = keberhasilan, n = tes, p = probabilitas benar untuk sukses = rata-rata k / n):
σ2( k ) = n p ( 1 - p )
Varians dari proporsi (seperti tingkat hit, tingkat kesalahan, sensitivitas, TPR, ..., saya akan menggunakan dari sekarang dan p untuk nilai yang diamati dalam uji coba) adalah topik yang mengisi seluruh buku ...halhal^
- Fleiss: Metode Statistik untuk Tarif dan Proporsi
- Forthofer dan Lee: Biostatistics memiliki pengantar yang bagus.
Sekarang, p = k dan karenanya:hal^= kn
σ2( hal^) = p ( 1 - p )n
Ini berarti bahwa ketidakpastian untuk mengukur kinerja classifier hanya bergantung pada p kinerja sebenarnya dari model yang diuji dan jumlah sampel uji.
Dalam validasi silang Anda anggap
bahwa model "pengganti" memiliki kinerja sebenarnya yang sama dengan model "nyata" yang biasanya Anda buat dari semua sampel. (Rincian asumsi ini adalah bias pesimis yang terkenal).
bahwa model k "pengganti" memiliki kinerja sebenarnya yang sama (setara, memiliki prediksi stabil), sehingga Anda diizinkan untuk mengumpulkan hasil tes k.
Tentu saja tidak hanya model k "pengganti" dari satu iterasi cv yang dapat digabungkan tetapi model ki dari iterasi k-fold cv.
Mengapa iterate?
Hal utama yang iterasi katakan adalah ketidakstabilan model (prediksi), yaitu varian prediksi model yang berbeda untuk sampel yang sama.
hal^
Dan ya, ini informasi penting.
nb o o t s t r a pk ⋅ ni t e r . c v n - 1 ≈ nσ2( hal^) = p ( 1 - p )n
halknhal^n
Jika Anda mengamati ketidakstabilan model, rata-rata gabungan adalah perkiraan yang lebih baik dari kinerja sebenarnya. Varians antara iterasi adalah informasi penting, dan Anda bisa membandingkannya dengan varians minimal yang diharapkan untuk serangkaian uji ukuran n dengan kinerja rata-rata kinerja sebenarnya di atas semua iterasi.