Menghitung interval prediksi saat menggunakan validasi silang

Apakah estimasi standar deviasi dihitung melalui:

$s_N = \sqrt{\frac{1}{N} \sum_{i=1}^N (x_i - \overline{x})^2}.$

( http://en.wikipedia.org/wiki/Standard_deviation#Sample_standard_deviation )

untuk akurasi prediksi yang diambil dari validasi silang 10 kali lipat? Saya khawatir bahwa akurasi prediksi yang dihitung antara setiap lipatan tergantung karena tumpang tindih yang substansial antara set pelatihan (meskipun set prediksi independen). Sumber daya apa pun yang membahas ini akan sangat membantu.

— Christopher Dorian
sumber

Yang mungkin menarik: Rumus matematika untuk kesalahan prediksi validasi silang K-fold? , Perkiraan varians dalam validasi silang k-fold .

— chl

Juga mungkin menarik: linear-regresi-prediksi-interval .

— gung - Reinstate Monica

Saya khawatir bahwa akurasi prediksi yang dihitung antara setiap lipatan tergantung karena tumpang tindih yang substansial antara set pelatihan (meskipun set prediksi independen).

IMHO tumpang tindih antara set pelatihan tidak perlu menjadi perhatian besar di sini. Artinya, tentu saja penting untuk memeriksa apakah modelnya stabil. Stable menyiratkan bahwa prediksi model pengganti validasi silang adalah setara (yaitu kasus independen akan mendapatkan prediksi yang sama oleh semua model), dan pada kenyataannya cross validaton biasanya mengklaim kesetaraan tidak hanya antara model pengganti tetapi juga untuk model yang dilatih pada semua kasus. Jadi ketergantungan ini lebih merupakan konsekuensi dari apa yang ingin kita miliki.

Ini berlaku untuk pertanyaan umum: jika saya melatih model pada data ini , berapa interval prediksi? Jika pertanyaannya adalah sebaliknya, jika kita melatih model pada kasus populasi ini, berapa interval prediksi ?, kita tidak bisa menjawabnya karena tumpang tindih dalam set pelatihan berarti kita meremehkan varians dengan jumlah yang tidak diketahui. $n$

Apa konsekuensi dibandingkan dengan pengujian dengan set tes independen?

Perkiraan validasi silang mungkin memiliki varians yang lebih tinggi daripada pengujian model akhir dengan set uji independen dengan ukuran yang sama, karena selain varians karena kasus uji, kami menghadapi varians karena ketidakstabilan model pengganti.
Namun, jika modelnya stabil, varians ini kecil / dapat diabaikan. Apalagi stabilitas jenis ini bisa diukur.
Apa yang tidak bisa diukur adalah seberapa representatif seluruh kumpulan data dibandingkan dengan populasi yang diambilnya. Ini termasuk bagian dari bias dari model akhir (namun, juga set tes independen kecil mungkin memiliki bias) dan itu berarti bahwa varian yang sesuai tidak dapat diperkirakan dengan validasi silang.
Dalam praktik aplikasi (kinerja model yang dilatih pada data ini ), perhitungan interval prediksi akan menghadapi masalah yang IMHO lebih penting daripada bagian mana yang tidak dapat dideteksi oleh varian lintas silang: misalnya
- validasi silang tidak dapat menguji kinerja untuk kasus yang independen dalam waktu (prediksi biasanya diperlukan untuk kasus yang diukur di masa mendatang)
- data mungkin mengandung cluster yang tidak diketahui, dan kinerja out-of-cluster mungkin penting. Data yang dikelompokkan adalah sesuatu yang dapat Anda pertanggungjawabkan dalam validasi silang, tetapi Anda perlu tahu tentang pengelompokan tersebut.
Ini lebih dari sekadar validasi silang vs perangkat tes independen: pada dasarnya Anda perlu duduk dan merancang studi validasi, jika tidak, ada risiko tinggi bahwa perangkat tes "independen" tidak sepenuhnya independen. Setelah itu dilakukan, orang dapat memikirkan faktor-faktor mana yang paling penting secara praktis dan mana yang dapat diabaikan. Anda mungkin sampai pada kesimpulan bahwa setelah pertimbangan menyeluruh, cross valiation cukup baik dan hal yang masuk akal untuk dilakukan karena validasi independen akan jauh terlalu mahal dibandingkan dengan perolehan informasi yang mungkin.

Semua hal disatukan, saya akan menggunakan rumus biasa untuk standar deviasi, sebut saja dalam analogi dengan $s_{CV}$ $RMSE_{CV}$ dan laporkan secara terperinci bagaimana pengujian dilakukan.

— cbeleites tidak senang dengan SX
sumber