Pembaruan : Dengan manfaat dari beberapa tahun ke belakang, saya telah menulis perawatan yang lebih ringkas dari bahan yang sama dalam menanggapi pertanyaan serupa.
Cara Membangun Wilayah Percaya Diri
Mari kita mulai dengan metode umum untuk membangun wilayah kepercayaan. Ini dapat diterapkan pada parameter tunggal, untuk menghasilkan interval kepercayaan atau serangkaian interval; dan itu dapat diterapkan pada dua atau lebih parameter, untuk menghasilkan wilayah kepercayaan dimensi yang lebih tinggi.
Kami menyatakan bahwa statistik yang diamati DD berasal dari distribusi dengan parameter θθ , yaitu distribusi sampling s ( d | θ ) dis(d|θ) atas statistik yang mungkin dd , dan mencari wilayah kepercayaan untuk θθ dalam set nilai yang mungkin ΘΘ . Definisikan Wilayah Kepadatan Tertinggi (HDR): hh -HDR dari PDF adalah subset terkecil dari domainnya yang mendukung probabilitas hh . Notasikan hh -HDR dari s ( d | ψ )s(d|ψ) sebagai H ψHψ , untuk setiap ψ∈Θψ∈Θadalah 0,95. . Kemudian,wilayah kepercayaan hh untuk } . Nilai khas hθθ , diberikan data DD , adalah himpunan C D = { ϕ : D ∈ H ϕCD={ϕ:D∈Hϕ}h
Interpretasi Frekuensi
Dari definisi sebelumnya dari wilayah kepercayaan, ikuti
d ∈ H ψ ⟷ ψ ∈ C dd∈Hψ⟷ψ∈Cd
dengan C d = { ϕ : d ∈ H ϕ }Cd={ϕ:d∈Hϕ} . Sekarang bayangkan satu set besar ( imajiner ) pengamatan { D i }{Di} , yang diambil dalam keadaan mirip dengan DD . yaitu Mereka adalah sampel dari s ( d | θ )s(d|θ) . Karena H θHθ mendukung probabilitas massa hh dari PDF s(d | θ )s(d|θ). , P( D i ∈ H θ ) = hP(Di∈Hθ)=hjuga h untuk semua ii . Oleh karena itu, fraksi { D i }{Di} yang D i ∈ H θDi∈Hθ adalah hh . Jadi, dengan menggunakan persamaan di atas, fraksi { D i }{Di} untuk θ ∈ C D iθ∈CDih
Maka, inilah yang sering diklaim oleh hh wilayah kepercayaan untuk θθ sebesar:
Mengambil sejumlah besar pengamatan imajiner { D i }{Di} dari distribusi sampling s ( d | q )s(d|θ) yang memunculkan statistik yang diamati DD . Kemudian, θθ terletak dalam fraksi hh dari wilayah kepercayaan analog tapi imajiner { C D i }{CDi} .
Kepercayaan wilayah C DCD karena tidak membuat klaim tentang probabilitas bahwa θθ kebohongan di suatu tempat! Alasannya sederhana bahwa tidak ada dalam fomulasi yang memungkinkan kita untuk berbicara tentang distribusi probabilitas lebih dari θθ . Interpretasinya hanyalah suprastruktur yang rumit, yang tidak meningkatkan basis. Basis hanya s ( d | θ )s(d|θ) dan DD , di mana θθ tidak muncul sebagai kuantitas yang didistribusikan, dan tidak ada informasi yang dapat kita gunakan untuk mengatasinya. Pada dasarnya ada dua cara untuk mendapatkan distribusi lebih dari θθ :
- Tetapkan distribusi langsung dari informasi yang tersedia: p ( θ | I )p(θ|I) .
- Hubungkan θθ dengan kuantitas terdistribusi lain: p ( θ | I ) = ∫ p ( θ x | I ) d x = ∫ p ( θ | x I ) p ( x | I ) d xp(θ|I)=∫p(θx|I)dx=∫p(θ|xI)p(x|I)dx .
Dalam kedua kasus, θθ harus muncul di sebelah kiri di suatu tempat. Frequentists tidak dapat menggunakan metode mana pun, karena mereka berdua membutuhkan bidat sebelumnya.
Pandangan Bayesian
Yang paling sebuah Bayesian dapat membuat satu hh wilayah kepercayaan diri C DCD , diberikan tanpa kualifikasi, hanya interpretasi langsung: bahwa itu adalah himpunan φϕ yang DD jatuh di hh -HDR H φHϕ dari distribusi sampling s ( d | ϕ )s(d|ϕ) . Itu tidak selalu memberi tahu kita banyak tentang θθ , dan inilah sebabnya.
Probabilitas bahwa θ ∈ C Dθ∈CD , diberikan DD dan informasi latar belakang II , adalah:
P ( θ ∈ C D | D I )= ∫ C D p ( q | D I ) d θ= ∫ C D p ( D | q I ) p ( q | I )p ( D | I ) dθP(θ∈CD|DI)=∫CDp(θ|DI)dθ=∫CDp(D|θI)p(θ|I)p(D|I)dθ
Perhatikan bahwa, tidak seperti interpretasi frequentist, kami segera menuntut distribusi lebih dariθθ. Informasi latar belakang yangsayaIsampaikan kepada kami, seperti sebelumnya, bahwa distribusi sampling adalahs(d|θ)s(d|θ):
P(θ∈CD|DI)=∫CDs(D|θ)p(θ|I)p(D|I)dθ=∫CDs(D|θ)p(θ|I)dθp(D|I)i.e.P(θ∈CD|DI)=∫CDs(D|θ)p(θ|I)dθ∫s(D|θ)p(θ|I)dθP(θ∈CD|DI)i.e.P(θ∈CD|DI)=∫CDs(D|θ)p(θ|I)p(D|I)dθ=∫CDs(D|θ)p(θ|I)dθp(D|I)=∫CDs(D|θ)p(θ|I)dθ∫s(D|θ)p(θ|I)dθ
Now this expression does not in general evaluate to hh, which is to say, the hh confidence region CDCD does not always contain θθ with probability hh. In fact it can be starkly different from hh. There are, however, many common situations in which it does evaluate to hh, which is why confidence regions are often consistent with our probabilistic intuitions.
Sebagai contoh, anggaplah bahwa gabungan PDF sebelumnya dari dd dan θθ adalah simetris dalam p d , θ ( d , θ | I ) = p d , θ ( θ , d | I )pd,θ(d,θ|I)=pd,θ(θ,d|I) . (Jelas ini melibatkan asumsi bahwa rentang PDF atas domain yang sama dalam dd dan θθ .) Kemudian, jika sebelumnya adalah p ( θ | I ) = f ( θ )p(θ|I)=f(θ) , kami memiliki s ( D | θ ) hlm(θ|I)=s(D|θ)f(θ)=s(θ|D)f(D)s(D|θ)p(θ|I)=s(D|θ)f(θ)=s(θ|D)f(D). Hence
P(θ∈CD|DI)=∫CDs(θ|D)dθ∫s(θ|D)dθi.e.P(θ∈CD|DI)=∫CDs(θ|D)dθP(θ∈CD|DI)i.e.P(θ∈CD|DI)=∫CDs(θ|D)dθ∫s(θ|D)dθ=∫CDs(θ|D)dθ
From the definition of an HDR we know that for any ψ∈Θψ∈Θ
∫Hψs(d|ψ)dd=hand therefore that∫HDs(d|D)dd=hor equivalently∫HDs(θ|D)dθ=h∫Hψs(d|ψ)ddand therefore that∫HDs(d|D)ddor equivalently∫HDs(θ|D)dθ=h=h=h
Therefore, given that s(d|θ)f(θ)=s(θ|d)f(d)s(d|θ)f(θ)=s(θ|d)f(d), CD=HDCD=HD implies P(θ∈CD|DI)=hP(θ∈CD|DI)=h. The antecedent satisfies
CD=HD⟷∀ψ[ψ∈CD↔ψ∈HD]CD=HD⟷∀ψ[ψ∈CD↔ψ∈HD]
Applying the equivalence near the top:
CD=HD⟷∀ψ[D∈Hψ↔ψ∈HD]CD=HD⟷∀ψ[D∈Hψ↔ψ∈HD]
Thus, the confidence region CDCD contains θθ with probability hh if for all possible values ψψ of θθ, the hh-HDR of s(d|ψ)s(d|ψ) contains DD if and only if the hh-HDR of s(d|D)s(d|D) contains ψψ.
Now the symmetric relation D∈Hψ↔ψ∈HDD∈Hψ↔ψ∈HD is satisfied for all ψψ when s(ψ+δ|ψ)=s(D−δ|D)s(ψ+δ|ψ)=s(D−δ|D) for all δδ that span the support of s(d|D)s(d|D) and s(d|ψ)s(d|ψ). We can therefore form the following argument:
- s(d|θ)f(θ)=s(θ|d)f(d)s(d|θ)f(θ)=s(θ|d)f(d) (premise)
- ∀ψ∀δ[s(ψ+δ|ψ)=s(D−δ|D)]∀ψ∀δ[s(ψ+δ|ψ)=s(D−δ|D)] (premise)
- ∀ψ∀δ[s(ψ+δ|ψ)=s(D−δ|D)]⟶∀ψ[D∈Hψ↔ψ∈HD]∀ψ∀δ[s(ψ+δ|ψ)=s(D−δ|D)]⟶∀ψ[D∈Hψ↔ψ∈HD]
- ∴∀ψ[D∈Hψ↔ψ∈HD]∴∀ψ[D∈Hψ↔ψ∈HD]
- ∀ψ[D∈Hψ↔ψ∈HD]⟶CD=HD∀ψ[D∈Hψ↔ψ∈HD]⟶CD=HD
- ∴CD=HD∴CD=HD
- [s(d|θ)f(θ)=s(θ|d)f(d)∧CD=HD]⟶P(θ∈CD|DI)=h[s(d|θ)f(θ)=s(θ|d)f(d)∧CD=HD]⟶P(θ∈CD|DI)=h
- ∴P(θ∈CD|DI)=h∴P(θ∈CD|DI)=h
Let's apply the argument to a confidence interval on the mean of a 1-D normal distribution (μ,σ)(μ,σ), given a sample mean ˉxx¯ from nn measurements. We have θ=μθ=μ and d=ˉxd=x¯, so that the sampling distribution is
s(d|θ)=√nσ√2πe−n2σ2(d−θ)2s(d|θ)=n−−√σ2π−−√e−n2σ2(d−θ)2
Suppose also that we know nothing about θθ before taking the data (except that it's a location parameter) and therefore assign a uniform prior: f(θ)=kf(θ)=k. Clearly we now have s(d|θ)f(θ)=s(θ|d)f(d)s(d|θ)f(θ)=s(θ|d)f(d), so the first premise is satisfied. Let s(d|θ)=g((d−θ)2)s(d|θ)=g((d−θ)2). (i.e. It can be written in that form.) Then
s(ψ+δ|ψ)=g((ψ+δ−ψ)2)=g(δ2)ands(D−δ|D)=g((D−δ−D)2)=g(δ2)so that∀ψ∀δ[s(ψ+δ|ψ)=s(D−δ|D)]s(ψ+δ|ψ)=g((ψ+δ−ψ)2)=g(δ2)ands(D−δ|D)=g((D−δ−D)2)=g(δ2)so that∀ψ∀δ[s(ψ+δ|ψ)=s(D−δ|D)]
whereupon the second premise is satisfied. Both premises being true, the eight-point argument leads us to conclude that the probability that θθ lies in the confidence interval CDCD is hh!
We therefore have an amusing irony:
- The frequentist who assigns the hh confidence interval cannot say that P(θ∈CD)=hP(θ∈CD)=h, no matter how innocently uniform θθ looks before incorporating the data.
- The Bayesian who would not assign an hh confidence interval in that way knows anyhow that P(θ∈CD|DI)=hP(θ∈CD|DI)=h.
Final Remarks
We have identified conditions (i.e. the two premises) under which the hh confidence region does indeed yield probability hh that θ∈CDθ∈CD. A frequentist will baulk at the first premise, because it involves a prior on θθ, and this sort of deal-breaker is inescapable on the route to a probability. But for a Bayesian, it is acceptable---nay, essential. These conditions are sufficient but not necessary, so there are many other circumstances under which the Bayesian P(θ∈CD|DI)P(θ∈CD|DI) equals hh. Equally though, there are many circumstances in which P(θ∈CD|DI)≠hP(θ∈CD|DI)≠h, especially when the prior information is significant.
We have applied a Bayesian analysis just as a consistent Bayesian would, given the information at hand, including statistics DD. But a Bayesian, if he possibly can, will apply his methods to the raw measurements instead---to the {xi}{xi}, rather than ˉxx¯. Oftentimes, collapsing the raw data into summary statistics DD destroys information in the data; and then the summary statistics are incapable of speaking as eloquently as the original data about the parameters θθ.