Mengapa perlu untuk mengambil sampel dari distribusi posterior jika kita sudah TAHU distribusi posterior?

Pemahaman saya adalah bahwa ketika menggunakan pendekatan Bayesian untuk memperkirakan nilai parameter:

Distribusi posterior adalah kombinasi dari distribusi sebelumnya dan distribusi kemungkinan.
Kami mensimulasikan ini dengan menghasilkan sampel dari distribusi posterior (misalnya, menggunakan algoritma Metropolis-Hasting untuk menghasilkan nilai, dan menerimanya jika mereka berada di atas ambang batas probabilitas tertentu untuk menjadi milik distribusi posterior).
Setelah kami membuat sampel ini, kami menggunakannya untuk memperkirakan distribusi posterior, dan hal-hal seperti artinya.

Tapi, saya merasa saya harus salah paham akan sesuatu. Kedengarannya seperti kita memiliki distribusi posterior dan kemudian sampel darinya, dan kemudian menggunakan sampel itu sebagai perkiraan distribusi posterior. Tetapi jika kita memiliki distribusi posterior untuk memulai dengan mengapa kita perlu mengambil sampel darinya untuk memperkirakannya?

— Dave
sumber

Pertanyaan ini kemungkinan sudah dipertimbangkan di forum ini.

Ketika Anda menyatakan bahwa Anda "memiliki distribusi posterior", apa sebenarnya yang Anda maksud? "Memiliki" fungsi dari yang saya tahu adalah sebanding dengan posterior, yaitu misalnya target benar-benar buatan $\theta$

π (θ | x) \propto π (θ) \times f (x | θ)

$\pi(\theta|x) \propto \pi(\theta) \times f(x|\theta)$

tidak memberi tahu saya apa itu

π (θ | x) \propto \exp {- | | θ - x | |^{2} - | | θ + x | |^{4} - | | θ - 2 x | |^{6}}, x, θ \in R^{18},

$\pi(\theta|x)\propto\exp\{-||\theta-x||^2-||\theta+x||^4-||\theta-2x||^6\},\ \ x,\theta\in\mathbb{R}^{18},$

harapan posterior dari fungsi , misalnya, , posterior mean yang beroperasi sebagai estimator Bayesian di bawah kerugian standar; $\theta$ $\mathbb{E}[\mathfrak{h}(\theta)|x]$
keputusan optimal di bawah fungsi utilitas yang sewenang-wenang, keputusan yang meminimalkan kerugian posterior yang diharapkan;
kisaran ketidakpastian 90% atau 95% pada parameter, sub-vektor parameter, atau fungsi parameter, alias wilayah HPD ${h = h (θ); π^{h} (h) \geq \underline{h}}$ $\{h=\mathfrak{h}(\theta);\ \pi^\mathfrak{h}(h)\ge \underline{h}\}$
model yang paling mungkin untuk memilih antara menyetel beberapa komponen parameter ke nilai tertentu versus membiarkannya tidak diketahui (dan acak).

Ini hanya contoh dari banyak penggunaan distribusi posterior. Dalam semua kasus tetapi yang paling sederhana, saya tidak dapat memberikan jawaban dengan menatap kerapatan distribusi posterior dan perlu melanjutkan melalui resolusi numerik seperti metode Monte Carlo dan rantai Monte Carlo.

— Xi'an
sumber

Terima kasih banyak atas jawabannya Xi'an. Saya yakin ini menjawab pertanyaan saya, tetapi saya masih mengalami sedikit kesulitan untuk menangkapnya. Apakah saya benar bahwa kita memiliki fungsi kerapatan probabilitas yang sesuai dengan posterior (yaitu, dengan menggabungkan sebelumnya dan kemungkinan)? Mengapa kita tidak dapat menemukan 95% CI langsung dari ini, daripada dari distribusi posterior sampel?

— Dave

@Dave Saya pikir kuncinya di sini adalah apa yang Anda maksud dengan "miliki." Secara umum Anda tidak akan memiliki solusi bentuk tertutup, jadi Anda tidak akan "memiliki" fungsi dalam arti yang bermanfaat.

— biarawan

@monk terima kasih atas jawabannya! Apakah Anda keberatan menguraikan apa yang membuat solusi bentuk tidak tertutup?

— Dave

Misalkan prior Anda adalah Beta (a, b) dan kemungkinan Anda adalah Binomial (n, p). Bagaimana Anda menghitung nilai yang diharapkan dari posterior Anda? Coba cari tahu yang tidak terpisahkan dari produk itu dengan pena dan kertas. Secara umum, integral seperti itu akan menjadi sesuatu yang membutuhkan komputer untuk mendapatkan nilai tepat. Atau, Anda dapat menemukan bahwa Beta adalah konjugasi sebelum Binomial, dan oleh karena itu posterior akan menjadi Beta (dengan parameter yang mudah dihitung). Namun seringkali Anda tidak akan seberuntung itu. Menjabarkan definisi "bentuk tertutup" itu sulit, dan layak dibaca sendiri.

— biarawan

Ya, Anda mungkin memiliki distribusi posterior analitik. Tetapi inti dari analisis Bayesian adalah memarginalkan distribusi parameter posterior sehingga Anda mendapatkan hasil prediksi yang lebih baik dalam hal akurasi dan kemampuan generalisasi. Pada dasarnya, Anda ingin mendapatkan distribusi prediksi yang memiliki bentuk berikut.

$p(x|D)=\int p(x|w) p(w|D)dw$

$p(w|D)$ $p(w|D)$ $p(x|w)$

— Karlsson Yu
sumber