Algoritma / teknik MCMC apa yang digunakan untuk parameter diskrit?

Saya tahu cukup banyak tentang pemasangan parameter kontinu terutama metode berbasis gradien, tetapi tidak banyak tentang pemasangan parameter diskrit.

Algoritma / teknik MCMC apa yang biasa digunakan untuk pemasangan parameter diskrit? Apakah ada algoritma yang cukup umum dan cukup kuat? Apakah ada algoritma yang menangani kutukan dimensi dengan baik? Sebagai contoh, saya akan mengatakan Hamiltonian MCMC bersifat umum, kuat dan berskala baik.

Pengambilan sampel dari distribusi terpisah yang sewenang-wenang tampaknya lebih sulit daripada pengambilan sampel dari distribusi berkelanjutan, tetapi saya ingin tahu seperti apa keadaannya.

Sunting : JMS meminta saya untuk menjelaskan.

Saya tidak memiliki aplikasi spesifik dalam pikiran, tetapi di sini ada beberapa model yang saya bayangkan:

Pemilihan model antara beberapa jenis model regresi kontinu. Anda memiliki parameter 'model' tunggal diskrit
Model berkelanjutan di mana setiap pengamatan memiliki kemungkinan menjadi 'pencilan' dan diambil dari distribusi yang jauh lebih tersebar. Saya kira ini adalah model campuran.

Saya berharap banyak model menyertakan parameter kontinu dan diskrit.

bayesian mcmc

— John Salvatier
sumber

Jadi jawaban sederhananya adalah ya: Metropolis-Hastings dan contoh khususnya adalah sampel Gibbs :) Umum dan kuat; apakah timbangan tergantung pada masalah yang dihadapi.

$f(k)$ $P(\tilde k = k) = f(k)/\sum f(k)$ $k$

Sudahkah Anda memikirkan model tertentu? Ada segala macam pendekatan MCMC untuk menyesuaikan model campuran, misalnya, di mana penugasan komponen laten adalah parameter diskrit. Mulai dari sangat sederhana (Gibbs) hingga cukup kompleks.

Seberapa besar ruang parameter? Apakah ini berpotensi sangat besar (misalnya dalam kasus model campuran, itu N dengan jumlah komponen campuran)? Anda mungkin tidak memerlukan lebih dari sampler Gibbs, karena konjugasi tidak lagi menjadi masalah (Anda bisa mendapatkan konstanta normalisasi secara langsung sehingga Anda dapat menghitung persyaratan lengkap). Bahkan griddy Gibbs dulunya populer untuk kasus-kasus ini, di mana prior berkelanjutan didiskritisasi untuk memudahkan perhitungan.

Saya tidak berpikir ada "terbaik" khusus untuk semua masalah memiliki ruang parameter diskrit lebih daripada yang ada untuk kasus terus menerus. Tetapi jika Anda memberi tahu kami lebih lanjut tentang model yang Anda minati, mungkin kami dapat membuat beberapa rekomendasi.

Sunting: Oke, saya bisa memberikan sedikit informasi lagi di: contoh Anda.

$p(\beta)\sim \pi N(\beta; 0, \tau) + (1-\pi) N(\beta, 0, 1000\tau)$ $p(\beta)\sim \pi \delta_0 (\beta) + (1-\pi) N(\beta, 0, \tau)$ $\delta_0$ $\beta$ $Z$ $Z_1\dots, Z_p$ $2^p$ $1:2^p$

$p(Z, \beta|y)$ $p(Z, \beta|y) = p(\beta | Y, Z)p(Z|Y)$ $Z$ $\beta$

SSVS menanamkan seluruh ruang model dalam satu model besar. Seringkali ini mudah diimplementasikan tetapi memberikan hasil yang buruk. MCMC melompat terbalik adalah jenis pendekatan yang berbeda yang memungkinkan dimensi ruang parameter bervariasi secara eksplisit; lihat [3] untuk ulasan dan beberapa catatan praktis. Anda dapat menemukan catatan lebih rinci tentang implementasi dalam berbagai model dalam literatur, saya yakin.

$p=1000$

Pendekatan lain yang mulai populer adalah dengan menggunakan prior shrinkage yang benar-benar kontinyu yang meniru hasil rata-rata model. Biasanya ini dirumuskan sebagai campuran skala normal. Lasso Bayesian adalah salah satu contoh, yang merupakan kasus khusus dari prior-gamma normal dan kasus yang membatasi prior-gamma normal-eksponensial. Pilihan lain termasuk tapal kuda dan kelas umum distribusi normal dengan beta terbalik versi pada varian mereka. Untuk lebih lanjut tentang ini, saya sarankan mulai dengan [6] dan berjalan kembali melalui referensi (terlalu banyak bagi saya untuk ditiru di sini :))

Saya akan menambahkan lebih banyak tentang model outlier nanti jika saya mendapatkan kesempatan; referensi klasiknya adalah [7]. Semangat mereka sangat mirip dengan prior penyusutan. Biasanya mereka cukup mudah dilakukan dengan sampling Gibbs.

Mungkin tidak sepraktis yang Anda harapkan; pemilihan model khususnya adalah masalah yang sulit dan semakin rumit model semakin buruk. Blokir pembaruan sedapat mungkin adalah satu-satunya saran umum yang saya miliki. Pengambilan sampel dari campuran distribusi Anda akan sering mengalami masalah yang indikator keanggotaan dan parameter komponennya sangat berkorelasi. Saya juga belum menyentuh masalah label switching (atau kurangnya label switching); ada banyak lektur di sana tetapi sedikit keluar dari ruang kemudi saya.

Bagaimanapun, saya pikir ini berguna untuk memulai dengan beberapa referensi di sini, untuk merasakan bagaimana cara orang lain mendekati masalah yang sama.

[1] Merlise Clyde dan EI George. Model Ketidakpastian Statistik Ilmu 19 (2004): 81--94. http://www.isds.duke.edu/~clyde/papers/statsci.pdf

[2] http://www-personal.umich.edu/~bnyhan/montgomery-nyhan-bma.pdf

[3] Green & Hastie Jump reversibel MCMC (2009) http://www.stats.bris.ac.uk/~mapjg/papers/rjmcmc_20090613.pdf

[4] http://www.stat.duke.edu/~clyde/BAS/

[5] http://ba.stat.cmu.edu/journal/2010/vol05/issue03/bottolo.pdf

[6] http://www.uv.es/bernardo/Polson.pdf

[7] Mike West Outlier model dan distribusi sebelumnya dalam regresi linier Bayesian (1984) JRSS-B

— JMS
sumber

Saya minta maaf karena butuh waktu lama untuk menjawab. Saya berikan beberapa contoh tipe model. Beri tahu saya jika Anda ingin klarifikasi lebih lanjut. Saya berpikir distribusi diskrit lebih sulit untuk diambil sampelnya karena sepertinya mereka akan lebih rentan terhadap perilaku multimodal. Apakah normalisasi eksplisit berlaku ketika Anda memiliki campuran variabel diskrit dan kontinu?

— John Salvatier