Distribusi beta saat membalik koin

Buku Bayesian karya Kruschke mengatakan, mengenai penggunaan distribusi beta untuk membalik koin,

Misalnya, jika kita tidak memiliki pengetahuan sebelumnya selain pengetahuan bahwa koin memiliki sisi kepala dan sisi ekor, itu sama dengan sebelumnya mengamati satu kepala dan satu ekor, yang sesuai dengan a = 1 dan b = 1.

Mengapa tidak ada informasi sama saja dengan melihat satu kepala dan satu ekor - 0 kepala dan 0 ekor tampaknya lebih alami bagi saya.

probability bayesian beta-distribution

— Hatshepsut
sumber

(+1) Kutipan ini menyesatkan karena mengundang pembaca untuk menyamakan dua arti "mengamati" yang sangat berbeda. Perasaan yang digunakan di sini adalah bahwa setelah memeriksa koin itu sendiri - pada dasarnya, itu berarti Anda memahami pengaturan eksperimental. Tetapi kesimpulan bahwa ini menyiratkan tergantung pada menafsirkan kembali "mengamati" dalam arti berbeda menjalankan percobaan dua kali selama satu hasil adalah kepala dan ekor lainnya. Jenis sulap logis semacam ini adalah solusi intelektual; itu hanya membuat metode Bayesian tampak sewenang-wenang dan secara logis licin, yang sangat disayangkan.

a = b = 1

$a=b=1$

— whuber

Kutipan salah: tidak ada pembenaran untuk versi Beta sebelumnya (1, 1).

— Neil G

Orang bisa dengan mudah berargumen bahwa informasi itu hanya bernilai satu pengamatan - setengah kepala / setengah ekor.

— Glen_b -Reinstate Monica

Harap ingat tujuan yang dimaksud dari bagian itu dalam buku. Itu seharusnya menjadi pembenaran intuitif sederhana untuk pengguna yang baru mulai , jelas bukan argumen matematis dan jelas bukan klaim bahwa beta (1,1) adalah yang terbaik atau hanya samar sebelumnya. Di tempat lain dalam buku ini, saya bersusah payah untuk menunjukkan bahwa variasi sederhana dalam prior samar-samar tidak membuat perbedaan substantif di posterior ketika ada sejumlah besar data. (Kecuali untuk faktor Bayes, tentu saja, yang sangat sensitif terhadap yang sebelumnya!) Dalam tulisan lain saya sudah membahas Haldane sebelumnya.

— John K. Kruschke

Kutipan ini adalah "sulap logis" (ekspresi hebat!), Seperti dicatat oleh @whuber dalam komentar kepada OP. Satu-satunya hal yang benar-benar dapat kita katakan setelah melihat bahwa koin memiliki kepala dan ekor, adalah bahwa kedua peristiwa "kepala" dan "ekor" itu tidak mustahil. Jadi kita bisa membuang diskrit sebelumnya yang menempatkan semua massa probabilitas pada "head" atau "tail". Tapi ini tidak mengarah dengan sendirinya pada seragam sebelumnya: pertanyaannya jauh lebih halus. Pertama-tama mari kita meringkas sedikit latar belakang. Kami sedang mempertimbangkan model konjugat Beta-Binominal untuk inferensi Bayesian tentang probabilitas kepala koin, mengingat lemparan koin independen dan terdistribusi secara identik (kondisional pada ). $\theta$ $n$ $\theta$ ketika kita mengamati kepala dalam lemparan: $p(\theta|x)$ $x$ $n$

p (θ | x) = B e t a (x + α, n - x + β)

$p(\theta|x) = Beta(x+\alpha, n-x+\beta)$

kita dapat mengatakan bahwa dan berperan sebagai "jumlah kepala sebelumnya" dan "jumlah ekor sebelumnya" (pseudotrials), dan dapat diartikan sebagai ukuran sampel yang efektif. Kita juga bisa sampai pada interpretasi ini dengan menggunakan ekspresi terkenal untuk rata-rata posterior sebagai rata-rata tertimbang dari rata-rata sebelumnya $\alpha$ $\beta$ $\alpha+\beta$ dan mean sampel $\frac{\alpha}{\alpha+\beta}$ . $\frac{x}{n}$

Melihat , kita dapat membuat dua pertimbangan: $p(\theta|x)$

karena kami tidak memiliki pengetahuan sebelumnya tentang (ketidaktahuan maksimum), kami secara intuitif berharap ukuran sampel efektif menjadi "kecil". Jika itu besar, maka sebelumnya akan menggabungkan pengetahuan yang cukup banyak. Cara lain untuk melihat ini adalah mencatat bahwa jika dan adalah "kecil" sehubungan dengan dan , probabilitas posterior tidak akan banyak bergantung pada sebelumnya, karena dan $\theta$ $\alpha+\beta$ $\alpha$ $\beta$ $x$ $n-x$ $x+\alpha\approx x$ $n-x+\beta\approx n-x$ . Kami berharap bahwa prior yang tidak memasukkan banyak pengetahuan harus dengan cepat menjadi tidak relevan mengingat beberapa data.
Juga, karena adalah rata-rata sebelumnya, dan kami tidak memiliki pengetahuan sebelumnya tentang distribusi , kami berharap. Ini adalah argumen simetri - jika kita tidak tahu yang lebih baik, kita tidak akan mengharapkanaprioribahwa distribusinya condong ke 0 atau ke 1. Distribusi Beta adalah $\mu_{prior}=\frac{\alpha}{\alpha+\beta}$ $\theta$ $\mu_{prior}=0.5$

$f (θ | α, β) = \frac{Γ (α + β)}{Γ (α) + Γ (β)} θ^{α - 1} (1 - θ)^{β - 1}$ $f(\theta|\alpha,\beta)=\frac{\Gamma(\alpha + \beta)}{\Gamma(\alpha) +\Gamma(\beta)}\theta^{\alpha-1}(1-\theta)^{\beta-1}$
Ekspresi ini hanya simetris di sekitar jika . $\theta=0.5$ $\alpha=\beta$

Untuk dua alasan ini, apa pun yang sebelumnya (milik keluarga Beta - ingat, model konjugasi!) Yang kami pilih untuk digunakan, kami secara intuitif berharap bahwa dan adalah "kecil". Kita dapat melihat bahwa ketiga prior non-informatif yang biasa digunakan untuk model Beta-Binomial berbagi sifat-sifat ini, tetapi selain itu, mereka sangat berbeda. Dan ini jelas: tidak ada pengetahuan sebelumnya, atau "ketidaktahuan maksimum", bukan definisi ilmiah, jadi apa jenis sebelumnya mengungkapkan "ketidaktahuan maksimum", yaitu, apa yang sebelumnya tidak informatif, tergantung pada apa yang Anda maksud sebagai "maksimum ketidakpedulian". $\alpha=\beta=c$ $c$

kita bisa memilih prior yang mengatakan bahwa semua nilai untuk bisa digunakan, karena kita tidak tahu yang lebih baik. Sekali lagi, argumen simetri. Ini sesuai dengan : $\theta$ $\alpha=\beta=1$

$f (θ | 1, 1) = \frac{Γ (2)}{2 Γ (1)} θ^{0} (1 - θ)^{0} = 1$ $f(\theta|1,1)=\frac{\Gamma(2)}{2\Gamma(1)}\theta^{0}(1-\theta)^{0}=1$
untuk , yaitu seragam yang sebelumnya digunakan oleh Kruschke. Secara lebih formal, dengan menuliskan ekspresi untuk entropi diferensial dari distribusi Beta, Anda dapat melihat bahwa itu dimaksimalkan ketika . Sekarang, entropi sering ditafsirkan sebagai ukuran "jumlah informasi" yang dibawa oleh suatu distribusi: entropi yang lebih tinggi sesuai dengan informasi yang lebih sedikit. Dengan demikian, Anda bisa menggunakan prinsip entropi maksimum ini untuk mengatakan bahwa, di dalam keluarga Beta, prior yang berisi lebih sedikit informasi (ketidaktahuan maksimum) adalah seragam ini sebelumnya. $\theta\in[0,1]$ $\alpha=\beta=1$
Anda dapat memilih sudut pandang lain, yang digunakan oleh OP, dan mengatakan bahwa tidak ada informasi yang sesuai dengan tidak melihat kepala dan tidak ada ekor, yaitu,

$α = β = 0 \Rightarrow π (θ) \propto θ^{- 1} (1 - θ)^{- 1}$ $\alpha=\beta=0 \Rightarrow \pi(\theta) \propto \theta^{-1}(1-\theta)^{-1}$
Sebelum kita mendapatkan cara ini disebut sebelumnya Haldane . Fungsi memiliki sedikit masalah - integral atas tidak terbatas, yaitu, apa pun konstanta normalisasi, tidak dapat diubah menjadi pdf yang tepat. Sebenarnya, prior Haldane adalah pmf yang tepat , yang menempatkan probabilitas 0,5 pada , 0,5 pada dan 0 probabilitas pada semua nilai lain untuk $\theta^{-1}(1-\theta)^{-1}$ $I=[0, 1]$ $\theta=0$ $\theta=1$ $\theta$ . Namun, jangan terbawa suasana - untuk parameter berkelanjutan , prior yang tidak sesuai dengan pdf yang tepat disebut prior yang tidak patut . Karena, seperti disebutkan sebelumnya, semua yang penting untuk inferensi Bayesian adalah distribusi posterior, prior yang tidak patut dapat diterima, selama distribusi posterior tepat. Dalam kasus Haldane sebelumnya, kami dapat membuktikan bahwa pdf posterior tepat jika sampel kami mengandung setidaknya satu keberhasilan dan satu kegagalan. Jadi kita hanya bisa menggunakan Haldane sebelumnya ketika kita mengamati setidaknya satu kepala dan satu ekor. $\theta$

Ada pengertian lain di mana Haldane sebelumnya dapat dianggap tidak informatif: rata-rata distribusi posterior sekarang $\frac{\alpha + x}{\alpha + \beta + n}=\frac{x}{n}$ $\theta$ $\theta$
Akhirnya, Anda bisa menggunakan prior yang tidak tergantung pada parametrization masalah, yaitu, Jeffrey sebelumnya, yang untuk model Beta-Binomial sesuai dengan

$α = β = \frac{1}{2} \Rightarrow π (θ) \propto θ^{- \frac{1}{2}} (1 - θ)^{- \frac{1}{2}}$ $\alpha=\beta=\frac{1}{2} \Rightarrow \pi(\theta) \propto \theta^{-\frac{1}{2}}(1-\theta)^{-\frac{1}{2}}$
$\theta$ $\lambda=log(\frac{\theta}{1-\theta})$ $\theta$

Untuk meringkas, tidak hanya ada satu pilihan tegas untuk informasi sebelumnya dalam model Beta-Binomial. Apa yang Anda pilih tergantung pada apa yang Anda maksud sebagai nol pengetahuan sebelumnya, dan pada tujuan analisis Anda.

— DeltaIV
sumber

$p(\theta=0)=0$ $p(\theta=1)=0$ $\theta$ $p(\theta)={\rm Beta}(h+1,(N-h)+1)$

— pengguna23856
sumber

Saya kesulitan memahami jawaban Anda.

— Michael R. Chernick

p

$p$

θ = 0

$\theta=0$

θ = 1

$\theta=1$