Pengaruh ketidakstabilan dalam prediksi model pengganti yang berbeda
Namun, salah satu asumsi di balik analisis binomial adalah probabilitas keberhasilan yang sama untuk setiap percobaan, dan saya tidak yakin apakah metode di balik klasifikasi 'benar' atau 'salah' dalam cross-validation dapat dianggap memiliki probabilitas keberhasilan yang sama.
Nah, biasanya bahwa ekivalensi adalah asumsi yang juga diperlukan untuk memungkinkan Anda mengumpulkan hasil dari model pengganti yang berbeda.
Dalam praktiknya, intuisi Anda bahwa anggapan ini mungkin dilanggar seringkali benar. Tetapi Anda dapat mengukur apakah ini masalahnya. Di situlah saya menemukan validasi silang berulang membantu: Kestabilan prediksi untuk kasus yang sama oleh model pengganti yang berbeda memungkinkan Anda menilai apakah model tersebut setara (prediksi stabil) atau tidak.
Berikut skema validasi -fold cross iterated (alias diulang) :k
Kelasnya merah dan biru. Lingkaran di sebelah kanan melambangkan prediksi. Dalam setiap iterasi, setiap sampel diprediksi tepat satu kali. Biasanya, mean rata-rata digunakan sebagai estimasi kinerja, secara implisit mengasumsikan bahwa kinerja model pengganti adalah sama. Jika Anda mencari setiap sampel pada prediksi yang dibuat oleh model pengganti yang berbeda (yaitu di seluruh kolom), Anda dapat melihat seberapa stabil prediksi tersebut untuk sampel ini.i⋅k
Anda juga dapat menghitung kinerja untuk setiap iterasi (blok 3 baris dalam gambar). Setiap perbedaan antara ini berarti bahwa asumsi bahwa model pengganti adalah setara (satu sama lain dan lebih jauh ke "model besar" yang dibangun pada semua kasus) tidak terpenuhi. Tetapi ini juga memberi tahu Anda berapa banyak ketidakstabilan yang Anda miliki. Untuk proporsi binomial saya pikir selama kinerja sebenarnya adalah sama (yaitu independen apakah selalu kasus yang sama diprediksi secara salah atau apakah jumlah yang sama tetapi kasus yang berbeda diprediksi secara salah). Saya tidak tahu apakah orang bisa menganggap distribusi tertentu untuk kinerja model pengganti. Tapi saya pikir ini merupakan keuntungan atas pelaporan kesalahan klasifikasi yang umum saat ini jika Anda melaporkan ketidakstabilan itu sama sekali.kk model pengganti sudah dikumpulkan untuk masing-masing iterasi, varians ketidakstabilan kira-kira kali varian yang diamati antara iterasi.k
Saya biasanya harus bekerja dengan kurang dari 120 kasus independen, jadi saya menempatkan regularisasi yang sangat kuat pada model saya. Saya kemudian biasanya dapat menunjukkan bahwa varians ketidakstabilan adalah daripada varians ukuran sampel hingga. (Dan saya pikir ini masuk akal untuk pemodelan karena manusia bias mendeteksi pola dan dengan demikian tertarik untuk membangun model yang terlalu kompleks dan dengan demikian overfitting).
Saya biasanya melaporkan persentil dari variabilitas ketidakstabilan yang diamati di atas iterasi (dan , dan ) dan interval kepercayaan binomial pada kinerja rata-rata yang diamati untuk ukuran sampel uji yang terbatas.n k i≪
nki
Gambar adalah versi terbaru dari ara. 5 dalam makalah ini: Beleites, C. & Salzer, R .: Menilai dan meningkatkan stabilitas model kemometrik dalam situasi ukuran sampel kecil, Anal Bioanal Chem, 390, 1261-1271 (2008). DOI: 10.1007 / s00216-007-1818-6
Perhatikan bahwa ketika kami menulis makalah saya belum sepenuhnya menyadari berbagai sumber ragam yang saya jelaskan di sini - ingatlah itu. Karena itu saya berpikir bahwa argumentasiuntuk estimasi ukuran sampel efektif yang diberikan tidak ada yang benar, meskipun kesimpulan aplikasi bahwa jenis jaringan yang berbeda dalam setiap pasien berkontribusi sebanyak informasi keseluruhan sebagai pasien baru dengan jenis jaringan yang diberikan mungkin masih valid (saya memiliki jenis yang sama sekali berbeda dari bukti yang juga menunjukkan hal itu). Namun, saya belum sepenuhnya yakin tentang ini (atau bagaimana melakukannya dengan lebih baik dan dengan demikian dapat memeriksa), dan masalah ini tidak terkait dengan pertanyaan Anda.
Kinerja mana yang digunakan untuk interval kepercayaan binomial?
Sejauh ini, saya telah menggunakan kinerja rata-rata yang diamati. Anda juga bisa menggunakan kinerja yang paling buruk diamati: semakin dekat kinerja yang diamati adalah 0,5, semakin besar varians dan dengan demikian interval kepercayaan. Dengan demikian, interval kepercayaan dari kinerja yang diamati terdekat dengan 0,5 memberi Anda "margin keselamatan" yang konservatif.
Perhatikan bahwa beberapa metode untuk menghitung interval kepercayaan binomial juga berfungsi jika jumlah keberhasilan yang diamati bukan bilangan bulat. Saya menggunakan "integrasi probabilitas posterior Bayesian" seperti yang dijelaskan dalam
Ross, TD: Interval kepercayaan yang akurat untuk proporsi binomial dan estimasi tingkat Poisson, Comput Biol Med, 33, 509-531 (2003). DOI: 10.1016 / S0010-4825 (03) 00019-2
(Saya tidak tahu untuk Matlab, tetapi dalam R Anda dapat menggunakan binom::binom.bayes
dengan kedua parameter bentuk diatur ke 1).
Pikiran-pikiran ini berlaku untuk model prediksi yang dibangun di atas data pelatihan ini menghasilkan hasil untuk kasus-kasus baru yang tidak diketahui. Jika Anda perlu menyamaratakan ke set data pelatihan lain yang diambil dari populasi kasus yang sama, Anda perlu memperkirakan berapa banyak model yang dilatih pada sampel pelatihan baru dengan ukuran beragam. (Saya tidak tahu bagaimana melakukannya selain dengan mendapatkan set data pelatihan baru "secara fisik")n
Lihat juga: Bengio, Y. dan Grandvalet, Y .: Tidak Ada Penaksir Tidak Bervariasi dari Variansi Validasi Silang K-Fold, Jurnal Penelitian Pembelajaran Mesin, 2004, 5, 1089-1105 .
(Berpikir lebih banyak tentang hal-hal ini ada dalam daftar todo penelitian saya ..., tetapi karena saya berasal dari ilmu pengetahuan eksperimental, saya ingin melengkapi kesimpulan teoretis dan simulasi dengan data eksperimental - yang sulit di sini karena saya memerlukan banyak set kasus independen untuk pengujian referensi)
Pembaruan: apakah dibenarkan untuk menganggap distribusi biomial?
Saya melihat k-fold CV seperti percobaan melempar koin berikut: alih-alih melempar satu koin berkali-kali, koin yang dihasilkan oleh mesin yang sama dilemparkan dalam jumlah yang lebih kecil. Dalam gambar ini, saya pikir @Tal menunjukkan bahwa koin tidak sama. Yang jelas benar. Saya pikir apa yang harus dan apa yang bisa dilakukan tergantung pada asumsi kesetaraan untuk model pengganti.k
Jika sebenarnya ada perbedaan kinerja antara model pengganti (koin), asumsi "tradisional" bahwa model pengganti setara tidak berlaku. Dalam hal ini, distribusi tidak hanya binomial (seperti yang saya katakan di atas, saya tidak tahu distribusi apa yang digunakan: itu harus merupakan jumlah binomial untuk setiap model pengganti / setiap koin). Namun perlu dicatat, bahwa ini berarti bahwa pengumpulan hasil model pengganti tidak diperbolehkan. Jadi tidak ada binomial untuk menguji perkiraan yang baik (saya mencoba untuk meningkatkan perkiraan dengan mengatakan kami memiliki sumber variasi tambahan: ketidakstabilan) atau kinerja rata-rata dapat digunakan sebagai estimasi titik tanpa pembenaran lebih lanjut.n
Jika di sisi lain kinerja (sebenarnya) pengganti adalah sama, saat itulah yang saya maksudkan dengan "model-modelnya ekuivalen" (satu gejala adalah bahwa prediksinya stabil). Saya pikir dalam hal ini hasil dari semua model pengganti dapat dikumpulkan, dan distribusi binomial untuk semua tes harus OK penggunaan: Saya pikir dalam kasus kita dibenarkan untuk mendekati benar s model pengganti harus sama , dan dengan demikian menggambarkan pengujian tersebut setara dengan melempar satu koin kali.p nnpn