Bagaimana cara memimpin yang tidak tepat sebelumnya ke distribusi posterior yang tepat?


22

Kita tahu bahwa dalam hal distribusi sebelumnya yang tepat,

P(θX)=P(Xθ)P(θ)P(X)

P(Xθ)P(θ) .

Pembenaran biasa untuk langkah ini adalah bahwa distribusi marginal , , konstan terhadap dan dengan demikian dapat diabaikan ketika menurunkan distribusi posterior.XP(X)θ

Namun, dalam kasus prior yang tidak patut, bagaimana Anda tahu bahwa distribusi posterior sebenarnya ada? Tampaknya ada sesuatu yang hilang dalam argumen yang tampaknya melingkar ini. Dengan kata lain, jika saya menganggap posterior itu ada, saya memahami mekanisme cara menurunkan posterior, tetapi saya sepertinya tidak memiliki alasan teoretis mengapa itu ada.

PS Saya juga mengakui bahwa ada kasus-kasus di mana prior yang tidak tepat mengarah ke posterior yang tidak tepat.

Jawaban:


16

Kami biasanya menerima posisi dari prior yang tidak tepat π(θ) jika

π(Xθ)π(θ)π(X)
ada dan merupakan distribusi probabilitas yang valid (yaitu, ia mengintegrasikan tepat ke 1 di atas dukungan). Pada dasarnya ini bermuara padaπ(X)=π(Xθ)π(θ)dθ terbatas. Jika ini masalahnya, maka kami memanggil kuantitas inidanmenerimanyasebagai distribusi posterior yang kami inginkan. Namun, penting untuk dicatat bahwa ini BUKAN distribusi posterior, juga bukan distribusi probabilitas bersyarat (kedua istilah ini identik dalam konteks di sini).π(θX)

Sekarang, saya berkata kami menerima distribusi 'posterior' dari prior yang tidak tepat seperti yang diberikan di atas. Alasan mereka diterima adalah karena sebelumnya π(θ) masih akan memberi kita 'skor' relatif pada ruang parameter; yaitu, rasio π(θ1)π(θ2) membawa arti bagi analisis kami. Makna yang kita dapatkan dari prior yang tidak tepat dalam beberapa kasus mungkin tidak tersedia di prior priors. Ini adalah pembenaran potensial untuk menggunakannya. Lihat jawaban Sergio untuk pemeriksaan motivasi praktik yang lebih teliti untuk prior yang tidak patut.

Perlu dicatat bahwa kuantitas ini π(θX) memang memiliki sifat teoritis yang diinginkan juga, Degroot & Schervish :

Prior yang tidak tepat bukanlah distribusi probabilitas yang sebenarnya, tetapi jika kita berpura-pura bahwa itu adalah, kita akan menghitung distribusi posterior yang memperkirakan posisi yang akan kita peroleh dengan menggunakan prior konjugat yang tepat dengan nilai ekstrim dari hiperparameter sebelumnya.


Saya bingung dengan beberapa hal dalam jawaban Anda. Anda mengatakan bahwa kami menerima eksterior jika di atas terbatas. Apakah itu berarti jika integral itu tidak terbatas maka posterior tidak akan terbatas? Juga, Anda tampaknya menyiratkan bahwa kami menggunakan posterior dalam kasus ini, tetapi itu bukan distribusi nyata - benarkah itu? apakah tidak ada kasus di mana itu adalah distribusi nyata? Juga, apa yang harus dilakukan oleh rasio prior dengan ini? Saya tidak melihat hubungannya.
Ben Elizabeth Ward

@ BenElizabethWard Jika ada, maka integral π ( X ) harus ada (dan dengan demikian terbatas). Kontrapositif juga benar: jika π ( X ) tidak ada (tidak terbatas), maka π ( θ X ) tidak ada. Ketika itu ada dan merupakan distribusi probabilitas yang valid, π ( θ X ) adalah distribusi probabilitas. Namun, itu bukan distribusi posterior untuk π ( θ ) dengan kemungkinan data yang diberikanπ(θX)π(X)π(X)π(θX)π(θX)π(θ) . Posterior untuk yang sebelumnya tidak ada. Kami menerima π ( θ X ) dalam analisis kami karena merupakan perkiraan. π(Xθ)π(θX)

1
@BenElizabethWard Rasio ini digunakan untuk menunjukkan bahwa sebelumnya masih berisi informasi berguna yang kita mungkin tidak dapat memuat ke sebelumnya yang tepat. Saya akan mengedit jawaban saya untuk memasukkan ini.

2
@jsk bukan merupakan distribusi probabilitas, tetapi definisi distribusi posterior mengharuskan π ( θ ) menjadi distribusi probabilitas, sehingga curang untuk memanggil π ( θ | X ) distribusi posterior saat itu adalah distribusi probabilitas. Degroot & Schervish mengatakan '..kami akan menghitung distribusi posterior itu ..' dengan mana mereka berasumsi Anda setuju untuk 'berpura-pura bahwa mereka [prior yang tidak patut] adalah [prior priors]' seperti yang dinyatakan sebelumnya dalam kutipan. π(θ)π(θ)π(θX)

1
Untuk membuat jawaban Anda lengkap dan mandiri sehingga pembaca masa depan tidak harus membaca pertukaran komentar ini, apakah Anda ingin memperbarui jawaban Anda?
jsk

9

Ada jawaban "teoretis" dan yang "pragmatis".

Dari sudut pandang teoretis, ketika prior tidak patut posterior tidak ada (well, lihat jawaban Matthew untuk pernyataan yang lebih jelas), tetapi dapat diperkirakan dengan bentuk pembatas.

Jika data terdiri dari sampel iid bersyarat dari distribusi Bernoulli dengan parameter , dan θ memiliki distribusi beta dengan parameter α dan β , distribusi posterior θ adalah distribusi beta dengan parameter α + s , β + n - s ( n pengamatan, s berhasil) dan rata-rata adalah ( α + s ) / ( α + β + n )θθαβθα+s,β+nsns(α+s)/(α+β+n). Jika kita menggunakan distribusi beta yang tidak tepat (dan tidak nyata) sebelum dengan hipeparameter sebelumnya , dan berpura-pura bahwa π ( θ ) θ - 1 ( 1 - θ ) - 1 , kita memperoleh posterior yang sebanding dengan θ s - 1 ( 1 - θ ) n - s - 1 , yaitu pdf dari distribusi beta dengan parameter s dan n - sα=β=0π(θ)θ1(1θ)1θs1(1θ)ns1snskecuali untuk faktor konstan. Ini adalah bentuk pembatas posterior untuk beta sebelum dengan parameter dan β 0 (Degroot & Schervish, Contoh 7.3.13).α0β0

In a normal model with mean θ, known variance σ2, and a N(μ0,τ02) prior distribution for θ, if the prior precision, 1/τ02, is small relative to the data precision, n/σ2, then the posterior distribution is approximately as if τ02=:

p(θx)N(θx¯,σ2/n)
i.e. the posterior distribution is approximately that which would result from assuming p(θ) is proportional to a constant for θ(,), a distribution that is not strictly possible, but the limiting form of the posterior as τ02 approaches does exist (Gelman et al., p. 52).

From a "pragmatic" point of view, p(xθ)p(θ)=0 when p(xθ)=0 whatever p(θ) is, so if p(xθ)0 in (a,b), then p(xθ)p(θ)dθ=abp(xθ)p(θ)dθ. Improper priors may be employed to represent the local behavior of the prior distribution in the region where the likelihood is appreciable, say (a,b). By supposing that to a sufficient approximation a prior follows forms such as f(x)=k,x(,) or f(x)=kx1,x(0,) only over (a,b), that it suitably tails to zero outside that range, we ensure the priors actually used are proper (Box and Tiao, p. 21). So if the prior distribution of θ is U(,) but (a,b) is bounded, it is as if θU(a,b), i.e. p(xθ)p(θ)=p(xθ)kp(xθ). For a concrete example, this is what happens in Stan: if no prior is specified for a parameter, it is implicitly given a uniform prior on its support and this is handled as a multiplication of the likelihood by a constant.


Can you say more about why it does not exist from a theoretical point of view?
jsk

I couldn't expound better than Matthew in his answer and in his comments.
Sergio

In the pragmatic section, what is y? Also in that section, should some of the p(θx) terms be the likelihood p(xθ)?
jsk

Thanks. I Think there might be one more mistake... You write P(θ)=kx1, but the prior can't depend on x. Do you mean P(θ)=kθ1?
jsk

Right! I've re-written that formulas as they are in Box & Tiao. I was trying to choose a homogeneous notation (e.g. Gelman uses y instead of x, DeGroot uses ξ(.) for priors and posteriors etc.) but I ended up in a mess... Thanks!
Sergio

2

However, in the case of an improper prior, how do you know that the posterior distribution actually exists?

The posterior might not be proper either. If the prior is improper and the likelihood is flat (because there are no meaningful observations), then the posterior equals the prior and is also improper.

Usually you have some observations, and usually the likelihood is not flat, so the posterior is proper.

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.