Izinkan data untuk menentukan prior dan kemudian jalankan model menggunakan prior ini? (mis. prior data-driven dari set data yang sama)


9

Ini adalah pemahaman saya bahwa kita tidak boleh membiarkan kumpulan data yang sama yang kita analisis untuk mendorong / menentukan seperti apa distribusi sebelumnya dalam analisis Bayesian. Secara khusus, tidak tepat untuk mendefinisikan distribusi sebelumnya untuk analisis Bayesian berdasarkan statistik ringkasan dari set data yang sama yang Anda akan gunakan prior untuk membantu menyesuaikan model.

Adakah yang mengetahui sumber daya yang secara khusus mendiskusikan hal ini sebagai tidak pantas? Saya perlu beberapa kutipan untuk masalah ini.


Jawaban:


11

Ya ini tidak pantas karena menggunakan data yang sama dua kali, yang mengarah pada hasil yang terlalu rahasia. Ini dikenal sebagai 'pencelupan ganda'.

Untuk referensi, saya akan mulai dengan Carlin dan Louis (2000). Meskipun 'pencelupan ganda' telah menjadi salah satu kritik utama Empiris Bayes, Ch. 3, khususnya bagian 3.5, buku ini menjelaskan cara untuk memperkirakan interval kepercayaan yang sesuai menggunakan pendekatan EB.

Berger J (2006). \ Kasus untuk Analisis Bayesian Tujuan. "Analisis Bayesian, 1 (3), 385 {402

Bradley P. Carlin, Thomas A. Louis 2000. Metode Bayes dan Empirical Bayes untuk analisis data.

Darniede, WF 2011. Metode Bayesian untuk Data-Dependent Priors. MS Tesis, Ohio State Univ.

Gelman, A., Carlin, JB, Stern, HS, dan Rubin, DB (2003), Analisis Data Bayesian, Edisi Kedua (Chapman & Hall / CRC Teks dalam Ilmu Statistik), Chapman dan Hall / CRC, 2 ed.


@sarah Harap daftarkan akun Anda sehingga Anda dapat mengklaim kembali pertanyaan Anda. Cukup kunjungi url ini: stats.stackexchange.com/users/login

1

Masuk akal untuk menggunakan data untuk membangun sebelumnya.

Untuk contoh dalam pemodelan campuran, lihat Richardson & Green (1997): http://citeseer.ist.psu.edu/viewdoc/summary?doi=10.1.1.27.3667

Mereka menggunakan mean dan kisaran titik data sebagai hiperparameter untuk sebelumnya dan itu masuk akal.

Masalah menggunakan data dua kali terjadi ketika prior informatif berasal dari data, menurut pendapat saya.

Selama Anda memeriksa bahwa distribusi Anda sebelumnya "datar" di mana distribusi posterior memuncak, maka Anda tahu bahwa distribusi Anda sebelumnya tidak memiliki dampak yang kuat pada hasil.


Menggunakan data untuk membangun prior tidak dapat terjadi dalam paradigma Bayesian. Jadi tidak masuk akal dari perspektif Bayesian dan validasi prosedur Bayesian yang biasa tidak berlaku. Kesimpulan yang dihasilkan mungkin benar-benar valid tetapi kita harus menunjukkannya dari prinsip pertama. (Richardson dan Green menggunakan apa yang disebut Bayes empiris. Yang bukan prosedur Bayesian.)
Xi'an

Meskipun tidak masuk akal dalam paradigma bayesian, kadang-kadang garis pemisah antara apa itu data dan apa yang sebelumnya sulit untuk digambarkan. Lihat jawaban saya untuk stats.stackexchange.com/questions/112451/…
kjetil b halvorsen
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.