Kutipan ini adalah "sulap logis" (ekspresi hebat!), Seperti dicatat oleh @whuber dalam komentar kepada OP. Satu-satunya hal yang benar-benar dapat kita katakan setelah melihat bahwa koin memiliki kepala dan ekor, adalah bahwa kedua peristiwa "kepala" dan "ekor" itu tidak mustahil. Jadi kita bisa membuang diskrit sebelumnya yang menempatkan semua massa probabilitas pada "head" atau "tail". Tapi ini tidak mengarah dengan sendirinya pada seragam sebelumnya: pertanyaannya jauh lebih halus. Pertama-tama mari kita meringkas sedikit latar belakang. Kami sedang mempertimbangkan model konjugat Beta-Binominal untuk inferensi Bayesian tentang probabilitas kepala koin, mengingat n lemparan koin independen dan terdistribusi secara identik (kondisional pada θ ).θnθ ketika kita mengamati x kepala dalam n lemparan:p ( θ | x )xn
p ( q | x ) = B e t a ( x + α , n - x + β)
kita dapat mengatakan bahwa dan β berperan sebagai "jumlah kepala sebelumnya" dan "jumlah ekor sebelumnya" (pseudotrials), dan α + β dapat diartikan sebagai ukuran sampel yang efektif. Kita juga bisa sampai pada interpretasi ini dengan menggunakan ekspresi terkenal untuk rata-rata posterior sebagai rata-rata tertimbang dari rata-rata sebelumnya ααβα + β dan mean sampelxαα + β .xn
Melihat , kita dapat membuat dua pertimbangan:p ( θ | x )
- karena kami tidak memiliki pengetahuan sebelumnya tentang (ketidaktahuan maksimum), kami secara intuitif berharap ukuran sampel efektif α + β menjadi "kecil". Jika itu besar, maka sebelumnya akan menggabungkan pengetahuan yang cukup banyak. Cara lain untuk melihat ini adalah mencatat bahwa jika α dan β adalah "kecil" sehubungan dengan x dan n - x , probabilitas posterior tidak akan banyak bergantung pada sebelumnya, karena
x + α ≈ x dan n - x + β ≈ n - xθα + βαβxn - xx + α ≈ xn - x + β≈ n - x. Kami berharap bahwa prior yang tidak memasukkan banyak pengetahuan harus dengan cepat menjadi tidak relevan mengingat beberapa data.
Juga, karena adalah rata-rata sebelumnya, dan kami tidak memiliki pengetahuan sebelumnya tentang distribusi
θ, kami berharapμprior=0,5. Ini adalah argumen simetri - jika kita tidak tahu yang lebih baik, kita tidak akan mengharapkanaprioribahwa distribusinya condong ke 0 atau ke 1. Distribusi Beta adalahμp r i o r= αα + βθμp r i o r= 0,5
f( θ | α , β) = Γ ( α + β)Γ ( α ) + Γ ( β)θα - 1( 1 - θ )β- 1
Ekspresi ini hanya simetris di sekitar jika
α = β .θ = 0,5α = β
Untuk dua alasan ini, apa pun yang sebelumnya (milik keluarga Beta - ingat, model konjugasi!) Yang kami pilih untuk digunakan, kami secara intuitif berharap bahwa dan c adalah "kecil". Kita dapat melihat bahwa ketiga prior non-informatif yang biasa digunakan untuk model Beta-Binomial berbagi sifat-sifat ini, tetapi selain itu, mereka sangat berbeda. Dan ini jelas: tidak ada pengetahuan sebelumnya, atau "ketidaktahuan maksimum", bukan definisi ilmiah, jadi apa jenis sebelumnya mengungkapkan "ketidaktahuan maksimum", yaitu, apa yang sebelumnya tidak informatif, tergantung pada apa yang Anda maksud sebagai "maksimum ketidakpedulian".α = β= cc
kita bisa memilih prior yang mengatakan bahwa semua nilai untuk bisa digunakan, karena kita tidak tahu yang lebih baik. Sekali lagi, argumen simetri. Ini sesuai dengan α = β = 1 :θα = β= 1
f( θ | 1 , 1 ) = Γ ( 2 )2 Γ ( 1 )θ0( 1 - θ )0= 1
untuk , yaitu seragam yang sebelumnya digunakan oleh Kruschke. Secara lebih formal, dengan menuliskan ekspresi untuk entropi diferensial dari distribusi Beta, Anda dapat melihat bahwa itu dimaksimalkan ketika
α = β = 1 . Sekarang, entropi sering ditafsirkan sebagai ukuran "jumlah informasi" yang dibawa oleh suatu distribusi: entropi yang lebih tinggi sesuai dengan informasi yang lebih sedikit. Dengan demikian, Anda bisa menggunakan prinsip entropi maksimum ini untuk mengatakan bahwa, di dalam keluarga Beta, prior yang berisi lebih sedikit informasi (ketidaktahuan maksimum) adalah seragam ini sebelumnya.θ ∈ [ 0 , 1 ]α = β= 1
Anda dapat memilih sudut pandang lain, yang digunakan oleh OP, dan mengatakan bahwa tidak ada informasi yang sesuai dengan tidak melihat kepala dan tidak ada ekor, yaitu,
α = β= 0 ⇒ π( θ ) ∝ θ- 1( 1 - θ )- 1
Sebelum kita mendapatkan cara ini disebut sebelumnya Haldane . Fungsi memiliki sedikit masalah - integral atas I = [ 0 , 1 ] tidak terbatas, yaitu, apa pun konstanta normalisasi, tidak dapat diubah menjadi pdf yang tepat. Sebenarnya, prior Haldane adalah pmf yang tepat , yang menempatkan probabilitas 0,5 pada θ = 0 , 0,5 pada θ = 1 dan 0 probabilitas pada semua nilai lain untuk θθ- 1( 1 - θ )- 1saya= [ 0 , 1 ]θ = 0θ = 1θ. Namun, jangan terbawa suasana - untuk parameter berkelanjutan , prior yang tidak sesuai dengan pdf yang tepat disebut prior yang tidak patut . Karena, seperti disebutkan sebelumnya, semua yang penting untuk inferensi Bayesian adalah distribusi posterior, prior yang tidak patut dapat diterima, selama distribusi posterior tepat. Dalam kasus Haldane sebelumnya, kami dapat membuktikan bahwa pdf posterior tepat jika sampel kami mengandung setidaknya satu keberhasilan dan satu kegagalan. Jadi kita hanya bisa menggunakan Haldane sebelumnya ketika kita mengamati setidaknya satu kepala dan satu ekor. θ
Ada pengertian lain di mana Haldane sebelumnya dapat dianggap tidak informatif: rata-rata distribusi posterior sekarang
α + xα + β+ n= xnθθ
Akhirnya, Anda bisa menggunakan prior yang tidak tergantung pada parametrization masalah, yaitu, Jeffrey sebelumnya, yang untuk model Beta-Binomial sesuai dengan
α = β= 12⇒ π( θ ) ∝ θ- 12( 1 - θ )- 12
θλ = l o g( θ1 - θ)θ
Untuk meringkas, tidak hanya ada satu pilihan tegas untuk informasi sebelumnya dalam model Beta-Binomial. Apa yang Anda pilih tergantung pada apa yang Anda maksud sebagai nol pengetahuan sebelumnya, dan pada tujuan analisis Anda.