Stabilitas validasi silang dalam model Bayesian


19

Saya memasang HLM Bayesian di JAGS menggunakan k-fold cross-validation (k = 5). Saya ingin tahu apakah estimasi parameter stabil di semua lipatan. Apa cara terbaik untuk melakukan ini?β

Satu ide adalah untuk menemukan perbedaan dari posteriors dari dan untuk melihat apakah 0 berada di 95% CI dari perbedaan. Dengan kata lain, adalah 0 dalam interval 95% dari (dan kemudian ulangi untuk semua pasangan lipatan).ββk=1-βk=2

Gagasan lain adalah memperlakukan posisi dari setiap lipatan sebagai rantai MCMC yang berbeda, dan untuk menghitung Gelman (Faktor Pengurangan Skala Potensi) di seluruh rantai semu ini.R^

Apakah salah satu dari ini lebih disukai, dan apakah ada alternatif?


1
Rasanya aneh untuk melihat apakah nol di antara perbedaan yang kredibel seperti yang Anda harapkan akan ada beberapa perbedaan di antara lipatan. Salah satu saran adalah menghitung estimasi titik untuk setiap lipatan dan melihat penyebarannya. β
Rasmus Bååth

3
Hanya komentar umum tentang validasi silang dan hal-hal Bayesian: Mengapa tidak menghitung WAIC saja? Asymptotically setara dengan LOOCV, dan Anda masih dapat menggunakan semua data Anda.
Brash Equilibrium

1
Bagaimana Anda menghasilkan simulasi posterior ? βk=1-βk=2
Stéphane Laurent

Dalam pengujian kami di bekas pabrik saya, kami harus membuktikan bahwa kehilangan hasil 0% berada di CI 95%. Pertanyaan yang memadai, sampel independen, dan sifat uji binomial mendominasi. Bisakah Anda memberikan gambaran tentang ukuran sampel Anda?
EngrStudent

Jawaban:


2

Saya tidak tahu apakah ini memenuhi syarat sebagai komentar atau sebagai jawaban. Saya meletakkan di sini karena rasanya seperti jawaban.

Dalam k-fold cross-validation Anda mempartisi data Anda menjadi k groups. Jika Anda membahas bahkan "dasar-dasar" maka Anda secara acak memilih anggota untuk masing-masing tempat sampah.

Ketika saya berbicara tentang data, saya menganggap setiap baris sebagai sampel, dan setiap kolom sebagai dimensi. Saya terbiasa menggunakan berbagai metode untuk menentukan kepentingan variabel, kepentingan kolom.

Bagaimana jika Anda, sebagai latihan pemikiran, berangkat dari seragam "buku teks" secara acak, dan menentukan baris mana yang penting? Mungkin mereka menginformasikan satu variabel pada satu waktu, tetapi mungkin mereka memberi informasi lebih lanjut. Apakah ada beberapa baris yang kurang penting daripada yang lain? Mungkin banyak poin informatif, mungkin sedikit.

Mengetahui pentingnya variabel, mungkin Anda bisa menganggapnya penting. Mungkin Anda bisa membuat satu tempat sampah dengan sampel paling penting. Ini bisa menentukan ukuran "k" Anda. Dengan cara ini, Anda akan menentukan ember kth "paling informatif" dan membandingkannya dengan yang lain, dan terhadap ember yang paling informatif.

Ini bisa memberi Anda gambaran tentang variasi maksimal dari parameter model Anda. Itu hanya satu bentuk.

Cara kedua untuk memisahkan ember k adalah dengan besarnya dan arah pengaruh. Jadi Anda bisa menempatkan sampel yang mengubah parameter atau parameter dalam satu arah ke satu ember dan menempatkan sampel yang mengubah parameter atau parameter yang sama dalam arah yang berlawanan ke dalam ember yang berbeda.

Variasi parameter dalam formulir ini mungkin memberikan sapuan yang lebih luas untuk variabel, berdasarkan bukan pada kepadatan informasi, tetapi pada jenis informasi.

Semoga berhasil.


0

Ini mungkin bukan jawaban yang lengkap, tetapi jika 0 TIDAK dalam CI 95% untuk beberapa perbedaan, cukup aman untuk mengatakan bahwa mereka tidak identik pada tingkat 0,05.

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.