Apakah penaksir Bayes mensyaratkan bahwa parameter sebenarnya adalah variasi yang mungkin dari sebelumnya?

Ini mungkin sedikit pertanyaan filosofis, tapi di sini kita pergi: Dalam teori keputusan, risiko penaksir Bayes untuk didefinisikan sehubungan dengan distribusi sebelumnya pada . $\hat\theta(x)$ $\theta\in\Theta$ $\pi$ $\Theta$

Sekarang, di satu sisi, agar benar telah menghasilkan data (yaitu "ada"), harus merupakan varian yang mungkin di bawah , misalnya memiliki probabilitas bukan nol, kerapatan tidak nol, dll .; di sisi lain, tidak diketahui, maka pilihan sebelumnya, jadi kami tidak memiliki jaminan bahwa adalah kemungkinan variasi di bawah kami pilih. $\theta$ $\theta$ $\pi$ $\theta$ $\theta$ $\pi$

Sekarang, tampak bagi saya bahwa kita entah bagaimana harus memilih sehingga akan menjadi varian yang mungkin. Kalau tidak, teorema tertentu tidak akan berlaku. Sebagai contoh, estimasi minimum tidak akan menjadi estimasi Bayes untuk prior yang paling tidak menguntungkan, karena kita bisa membuat itu sebelumnya sewenang-wenang dengan mengecualikan wilayah besar di sekitar dan memasukkan dari domainnya. Namun, menjamin bahwa memang dalam domain mungkin sulit dicapai. $\pi$ $\theta$ $\theta$ $\theta$

Jadi pertanyaan saya adalah:

Apakah secara umum diasumsikan bahwa aktual adalah kemungkinan variasi dari ? $\theta$ $\pi$
Bisakah ini dijamin?
Bisakah kasus yang melanggar ini setidaknya terdeteksi, jadi orang tidak bergantung pada teorema seperti minimax ketika kondisinya tidak berlaku?
Jika tidak diperlukan, mengapa standar hasil dalam teori keputusan berlaku?

— pengguna32849
sumber

Jawaban:

Pertanyaan yang sangat bagus! Memang masuk akal bahwa distribusi sebelumnya "baik" memberikan probabilitas positif atau nilai kerapatan positif ke parameter "benar" , tetapi dari perspektif keputusan murni ini tidak harus menjadi kasus. Contoh tandingan sederhana untuk "intuisi" ini bahwa harus diperlukan, ketika adalah densitas sebelumnya dan adalah nilai parameter "true" dari parameter, adalah brilian hasil minimaxity dari Casella dan Strawderman (1981): ketika memperkirakan rata-rata Normal berdasarkan pada pengamatan tunggal dengan kendala tambahan yaitu , $\theta_0$

π (θ_{0}) > 0

$\pi(\theta_0)>0$

π (\cdot)

$\pi(\cdot)$

θ_{0}

$\theta_0$

μ

$\mu$

x \sim N (μ, 1)

$x\sim{\cal N}(\mu,1)$

| μ | < ρ

$|\mu|<\rho$

ρ

$\rho$ cukup kecil, secara khusus, penaksir minimax sesuai dengan seragam (paling tidak menguntungkan) sebelum , yang berarti bahwa memberikan bobot yang sama dengan dan ( dan tidak ada nilai lain dari mean ) Ketika meningkatkan yang paling tidak menguntungkan sebelum melihat dukungannya tumbuh, tetapi tetap memiliki nilai yang terbatas. Namun harapan posterior, , dapat mengambil nilai apa pun pada .

ρ \leq 1.0567

$\rho\le 1.0567$

{- ρ, ρ}

$\{-\rho,\rho\}$

π

$\pi$

- ρ

$-\rho$

ρ

$\rho$

μ

$\mu$

π (θ) = \frac{1}{2} δ_{- ρ} (θ) + \frac{1}{2} δ_{ρ} (θ)

$\pi(\theta)=\frac{1}{2}\delta_{-\rho}(\theta)+ \frac{1}{2}\delta_{\rho}(\theta)$

ρ

$\rho$

E [μ | x]

$\mathbb{E}[\mu|x]$

(- ρ, ρ)

$(-\rho,\rho)$

Inti dari diskusi (lihat komentar) mungkin adalah, jika estimator Bayes dibatasi untuk menjadi titik dalam dukungan , propertinya akan sangat berbeda. $\pi(\cdot)$

Demikian pula, ketika mempertimbangkan penaksir yang dapat diterima, penaksir Bayes yang terkait dengan tepat sebelum suatu perangkat kompak biasanya dapat diterima, meskipun mereka memiliki dukungan terbatas.

Dalam kedua kasus, gagasan frequentist (minimaxity atau diterimanya) didefinisikan atas rentang parameter yang mungkin daripada pada nilai "true" dari parameter (yang membawa jawaban untuk Pertanyaan 4.) Misalnya, melihat risiko posterior atau beresiko Bayes tidak melibatkan nilai sebenarnya .

\int_{Θ} L (θ, δ) π (θ | x) d θ

$\int_\Theta L(\theta,\delta) \pi(\theta|x)\text{d}\theta$

\int_{X} \int_{Θ} L. (θ, δ) π (θ) f (x | θ) d θ d x

$\int_{\cal X}\int_\Theta L(\theta,\delta) \pi(\theta)f(x|\theta)\text{d}\theta\text{d}x$

θ_{0}

$\theta_0$

Selanjutnya, sebagaimana ditunjukkan dalam contoh di atas, ketika estimator Bayes didefinisikan oleh ekspresi formal seperti mean posterior untuk kerugian kuadratik (atau ), penaksir ini dapat mengambil nilai di luar dukungan dalam kasus dukungan ini tidak cembung.

{\hat{θ}}^{π} (x) = \int_{Θ} θ π (θ | x) d θ

$\hat{\theta}^\pi(x)=\int_\Theta \theta\pi(\theta|x)\text{d}\theta$

L_{2}

$L_2$

π

$\pi$

Sebagai tambahan, saat membaca

agar θ benar telah menghasilkan data (yaitu "ada"), θ harus merupakan variasi yang mungkin di bawah π, misalnya memiliki probabilitas bukan nol, kerapatan bukan nol

Saya menganggapnya sebagai penyajian yang keliru dari makna prior. Distribusi sebelumnya tidak dimaksudkan untuk mekanisme fisik (atau nyata) aktual yang melihat nilai parameter dihasilkan dari diikuti oleh pengamatan dihasilkan dari . Prior adalah ukuran referensi pada ruang parameter yang menggabungkan informasi sebelumnya dan keyakinan subyektif tentang parameter dan itu sama sekali tidak unik. Analisis Bayesian selalu relatif terhadap analisis yang sebelumnya dipilih untuk melakukan analisis Bayesian ini. Oleh karena itu, tidak ada keharusan mutlak untuk parameter yang benar untuk menjadi milik dukungan dari . Jelas, ketika dukungan ini adalah perangkat terkoneksi yang kompak, $\theta_0$ $\pi$ $x$ $f(x|\theta_0)$ $\pi$ ${\mathscr A}$ , nilai parameter apa pun di luar set tidak dapat secara konsisten diestimasi oleh rata-rata posterior tetapi ini bahkan tidak mencegah penaksir diterima. ${\mathscr A}$ $\hat{\theta}^\pi$

— Xi'an
sumber

μ

$\mu$

[0, + \infty)

$[0,+\infty)$

μ

$\mu$

Biasanya, cf Berger (1985), yang sebelumnya paling tidak disukai berhubungan dengan risiko minimax.

— Xi'an

θ \sim π (θ)

$\theta \sim \pi(\theta)$

Θ = [- m, m]

$\Theta=[-m, m]$

Θ

$\Theta$

Risiko terintegrasi tidak melibatkan parameter "benar" pada tahap apa pun. Jadi dalam hal ini tidak masalah.

— Xi'an

Jadi, dalam arti tertentu, risiko menangkap kerugian yang kita harapkan, bukan risiko yang sebenarnya kita alami. Ini sangat membantu, terima kasih banyak!

— user32849

$\theta$
$(-\infty, \infty)$ $[0,1]$ $(0, \infty)$
Jika posterior Anda "ditumpuk" di satu sisi domain sebelumnya, dan sebelumnya Anda memaksakan pembatasan yang tidak perlu pada domain di tepi yang sama, ini adalah indikator ad-hoc bahwa pembatasan yang tidak perlu mungkin menyebabkan Anda bermasalah. Tetapi ini hanya akan terjadi jika a) Anda telah membuat prior yang bentuknya sebagian besar didorong oleh kenyamanan daripada pengetahuan sebelumnya, dan b) bentuk yang diinduksi kenyamanan dari sebelumnya membatasi domain parameter ke subset dari apa yang " domain alami "dapat dianggap.

Contohnya adalah praktik lama, semoga lama usang, yang mengikat sebelumnya pada istilah varians sedikit jauh dari nol untuk menghindari kemungkinan kesulitan komputasi. Jika nilai sebenarnya dari varians adalah antara terikat dan nol, well ... tetapi sebenarnya berpikir tentang nilai-nilai potensial dari varians yang diberikan data, atau (misalnya) menempatkan prior pada log varians sebagai gantinya, akan memungkinkan Anda menghindari masalah ini, dan kepandaian ringan serupa harus memungkinkan Anda untuk menghindari prior yang membatasi domain pada umumnya.

Dijawab oleh # 1.

— Jbowman
sumber

Jika ada orang yang menjatuhkan jawaban kembali - mengapa "tidak berguna"?

— jbowman

$\theta$ $-\infty$ $\infty$

$\theta$

— Tim
sumber