Bayesian menyimpulkan sejumlah variabel acak bernilai nyata

Misalkan , , ..., menjadi iid RV dengan rentang tetapi distribusinya tidak diketahui. (Saya setuju dengan anggapan bahwa distribusi ini kontinu, dll., Jika perlu.) $X_1$ $X_2$ $X_n$ $[0,1]$

Tentukan . $S_n = X_1 + \cdots + X_n$

Saya diberikan , dan bertanya: Apa yang bisa saya simpulkan, dengan cara Bayesian, tentang ? $S_k$ $S_n$

Yaitu, saya diberikan jumlah sampel ukuran RV, dan saya ingin tahu apa yang dapat saya simpulkan tentang distribusi jumlah semua RV, menggunakan pendekatan Bayesian (dan mengasumsikan prioritas yang masuk akal tentang distribusi). $k$

Jika dukungannya adalah alih-alih , maka masalah ini dipelajari dengan baik, dan (dengan prior pri seragam) Anda mendapatkan distribusi senyawa beta-binomial untuk distribusi yang disimpulkan pada . Tapi saya tidak yakin bagaimana cara mendekatinya dengan karena jangkauan ... $\{0,1\}$ $[0,1]$ $S_n$ $[0,1]$

Pengungkapan penuh : Saya sudah memposting ini di MathOverflow , tetapi diberitahu bahwa akan lebih baik diposting di sini, jadi ini adalah posting ulang.

bayesian inference

— Ronald L Rivest
sumber

Saya baru saja akan menulis komentar kepada Anda di MO, tetapi saya akan menulisnya di sini. Jika Anda merasa pertanyaannya lebih cocok untuk forum ini, Anda mungkin menandainya di MO dan meminta untuk menutupnya.

— kardinal

Saya ingin klarifikasi pernyataan terakhir Anda. Jika rentangnya adalah maka distribusi apa pun yang menempatkan massa pada nilai tidak dalam untuk distribusi tampaknya konyol, jadi saya ingin tahu apakah saya ' Saya sudah mengerti tujuan Anda dengan benar. (Mungkin referensi akan sangat membantu.)

{0, 1}

$\{0,1\}$

{0, 1, \dots, n}

$\{0,1,\ldots,n\}$

S_{k}

$S_k$

— kardinal

Apa yang saya salah pahami?

— kardinal

Apakah Anda tertarik dengan Bayesian non-parametrics? Jika Anda tidak ingin membuat asumsi tentang distribusi , Anda memerlukan kerangka kerja non-parametrik. Tapi kemudian, hanya diberikan Anda tidak bisa bicara banyak ...

X_{k}

$X_k$

S_{k}

$S_k$

— Xi'an

Ini adalah komentar yang bagus; maaf masalahnya sedikit kacau. Saya berpikir bahwa n sangat besar dibandingkan dengan , dan posterior pada akan langsung mencerminkan posterior pada parameter. Mungkin alih-alih saya seharusnya menggunakan , dan meminta posterior di ketika menuju ke infinity. Apakah ini masuk akal sekarang?

k

$k$

S_{n}

$S_n$

S_{n}

$S_n$

S_{n}^{'} = S_{n} / n

$S'_n = S_n/n$

lim S_{n}^{'}

$\lim S'_n$

n

$n$

— Ronald L Rivest

Jawaban:

Pertimbangkan analisis nonparametrik Bayesian berikut.

Tentukan dan biarkan menjadi himpunan bagian Borel dari . Biarkan menjadi ukuran terbatas bukan nol . $\mathscr{X}=[0,1]$ $\mathscr{B}$ $\mathscr{X}$ $\alpha$ $(\mathscr{X},\mathscr{B})$

Biarkan menjadi proses Dirichlet dengan parameter , dan misalkan bersyarat iid, mengingat bahwa , sehingga , untuk setiap . $Q$ $\alpha$ $X_1,\dots,X_n$ $Q=q$ $\mu_{X_1}(B)=P\{X_1\in B\} = q(B)$ $B\in\mathscr{B}$

Dari sifat-sifat proses Dirichlet, kita tahu bahwa, mengingat , distribusi prediksi pengamatan masa depan seperti adalah ukuran over didefinisikan oleh $X_1,\dots,X_k$ $X_{k+1}$ $\beta$ $(\mathscr{X},\mathscr{B})$

β (B) = \frac{1}{α (X) + k} (α (B) + \sum_{i = 1}^{k} I_{B} (X_{i})) .

$\beta(B) = \frac{1}{\alpha(\mathscr{X})+k} \left( \alpha(B) + \sum_{i=1}^k I_B(X_i)\right) \, .$

Sekarang, tentukan sebagai bidang sigma yang dihasilkan oleh , dan gunakan keterukur dan simetri untuk mendapatkan hampir pasti. $\mathscr{F}_k$ $X_1,\dots,X_k$ $X_i$

E [S_{n} ∣ F_{k}] = S_{k} + E [\sum_{i = k + 1}^{n} X_{i} | F_{k}] = S_{k} + (n - k) E [X_{k + 1} ∣ F_{k}],

$E\left[ S_n \mid \mathscr{F}_k \right] = S_k + E\left[ \sum_{i=k+1}^n X_i \,\Bigg\vert\, \mathscr{F}_k \right] = S_k + (n-k) E\left[ X_{k+1} \mid \mathscr{F}_k \right] \, ,$

Untuk menemukan jawaban eksplisit, anggap bahwa adalah . Mendefinisikan , kita memiliki hampir pasti (distribusi gabungan ), di mana . Dalam batas "noninformatif" dari , ekspektasi sebelumnya berkurang menjadi , yang berarti, dalam hal ini, perkiraan posterior Anda untuk hanya kali rata-rata dari pertama $\alpha(\cdot)/\alpha(\mathscr{X})$ $U[0,1]$ $c=\alpha(\mathscr{X})>0$

E [S_{n} ∣ X_{1} = x_{1}, \dots, X_{k} = x_{k}] = s_{k} + \frac{n - k}{c + k} (\frac{c}{2} + s_{k}),

$E\left[ S_n \mid X_1=x_1,\dots,X_k=x_k \right] = s_k + \frac{n-k}{c+k}\left(\frac{c}{2}+s_k\right) \, ,$

[μ_{X_{1}, \dots, X_{k}}]

$[\mu_{X_1,\dots,X_k}]$

X_{1}, \dots, X_{k}

$X_1,\dots,X_k$

s_{k} = x_{1} + \dots + x_{k}

$s_k=x_1+\dots+x_k$

c \to 0

$c\to 0$

n \cdot (s_{k} / k)

$n\cdot (s_k/k)$

S_{n}

$S_n$

n

$n$

k

$k$ pengamatan, yang terlihat seintuitif mungkin.

— Zen
sumber

Apakah mungkin untuk mendapatkan ekspresi yang bagus untuk bawah model ini juga?

Var [S_{n} | S_{k}]

$\text{Var}[S_n|S_k]$

— Cyan

Maafkan kurangnya teori ukuran dan penyalahgunaan notasi di bawah ini ...

Karena ini adalah inferensi Bayesian, harus ada beberapa yang sebelumnya tidak diketahui dalam masalah, yang dalam hal ini adalah distribusi , parameter dimensi tak terbatas mengambil nilai dalam set distribusi pada (sebut saja ). Distribusi data konvergen ke distribusi normal, jadi jika cukup besar ( teorema Berry-Esseen ) kita bisa menampar normal itu sebagai perkiraan. Lebih jauh, jika perkiraannya akurat, satu-satunya aspek dari prioritas sebelumnya $X_1$ $[0, 1]$ $\pi$ $S_k|\pi$ $k$ $p(\pi)$ yang penting secara praktis adalah induksi sebelumnya $(\text{E}_\pi(X_1),\text{Var}_\pi(X_1))=(\mu,\sigma^2)$ .

Sekarang kita melakukan prediksi Bayesian standar dan memasukkan perkiraan kepadatan. ( $S_n$ tunduk pada perkiraan yang sama dengan $S_k$ .)

$p(S_n|S_k) = \int p(\pi|S_k)p(S_n|\pi,S_k)d\pi$

$p(S_n|S_k) = \int \frac{p(\pi)p(S_k|\pi)}{p(S_k)}p(S_n|\pi,S_k)d\pi$

$p(S_n|S_k) \approx \frac{\int p(\mu,\sigma^2)\text{N}(S_k|k\mu,k\sigma^2)\text{N}(S_n|(n-k)\mu + S_k, (n-k)\sigma^2) d(\mu,\sigma^2)}{\int p(\mu,\sigma^2)\text{N}(S_k|k\mu,k\sigma^2) d(\mu,\sigma^2)}$

Untuk batas integral, $\mu \in [0, 1]$ , jelas; kupikir $\sigma^2 \in [0,\frac{1}{4}]$ ?

Ditambahkan nanti: tidak, $\sigma^2 \in [0,\mu(1-\mu)].$ Ini bagus - nilai yang diizinkan dari $\sigma^2$ bergantung pada $\mu$ , jadi info dalam data tentang $\mu$ relevan dengan $\sigma^2$ terlalu.

— Cyan
sumber

Saya tidak mengerti paragraf utama Anda. Pertama-tama, konvergensi ke normal hanya setelah pergeseran dan skala

S_{n}

$S_n$ dan ini bukan oleh teorema Berry - Esseen (yang merupakan teorema pada tingkat konvergensi menjadi normal), tetapi CLT. Lebih jauh, pergeseran dan skala akan tergantung pada parameter tetap tertentu. Pernahkah Anda melihat sebuah kasus di mana Anda memiliki, katakanlah, tiga poin sebelum didistribusikan secara seragam

{0, 1 / 2, 1}

$\{0,1/2,1\}$ ?

— kardinal

Biarkan saya mengklarifikasi bahwa ketika saya menulis "normal" saya tidak bermaksud standar normal. Jadi pergeseran dan skala ulang mengubah mean dan varians tetapi konvergensi masih beberapa elemen dalam keluarga distribusi normal. Saya bermaksud untuk tautan ke teorema Berry-Esseen untuk merujuk frasa "jika

k

$k$ cukup besar "; penempatannya saat ini adalah kesalahan cut-n-paste, dan saya akan mengubahnya. Saya tidak mengerti pertanyaan Anda tentang parameter tetap - dapatkah Anda mengklarifikasi pertanyaan?

— Cyan

Re: pertanyaan kardinal. Perhatikan bahwa prior adalah distribusi pada distribusi dengan dukungan di

[0, 1]

$[0, 1]$ . Jika saya menerima pertanyaan Anda secara harfiah, Anda bertanya tentang prior yang memiliki dukungan pada tiga variabel acak konstan , yang sepele untuk dianalisis. Tetapi karena Anda menulis di komentar lain "Jika kisarannya adalah

0, 1

${0,1}$ lalu distribusi apa pun yang menempatkan massa pada nilai tidak

0, 1, \dots, n

${0,1,…,n}$ untuk distribusi

S_{k}

$S_k$ tampaknya konyol, "Saya pikir Anda meminta distribusi data diskrit. Jawaban singkatnya adalah," tidak, itu tidak konyol. "Lanjutan ...

— Cyan

Tidak apa-apa untuk memperkirakan distribusi diskrit dengan yang kontinu .

— Cyan

Saya pikir ada beberapa masalah di sini: (a) Pernyataan pertanyaan dapat menggunakan beberapa penyempurnaan untuk mengklarifikasi tujuan akhir, (b) pertanyaan, komentar dan jawaban, sayangnya, telah dikacaukan melalui kesalahan ketik yang tidak disengaja, kesalahan perhitungan dan banyak utas percakapan. , dan (c) komentar saya yang dirujuk di atas tampak sedikit keluar dari konteks. Pernyataan saya tentang

S_{k}

$S_k$ (Typo: seharusnya

S_{n}

$S_n$ berkaitan dengan distribusi posterior

S_{n}

$S_n$ diberikan

S_{k}

$S_k$ . Jika saya tahu

S_{n} \in {S_{k}, \dots, n}

$S_n \in \{S_k,\ldots,n\}$ maka setiap distribusi posterior yang tidak menempatkan semua massanya harus tidak dapat diterima.

— kardinal

Biarkan masing-masing $X_i$ milik keluarga distribusi $F$ dan memiliki parameter $\theta$ .

Diberikan, $S_k$ , kami memiliki distribusi di $\theta$ :

\begin{aligned} Pr (θ ∣ S_{k}) & = \frac{1}{Z} Pr (θ) Pr (S_{k} ∣ θ) \end{aligned}

$\begin{align} \Pr(\theta \mid S_k) &= \frac1Z \Pr(\theta)\Pr(S_k \mid \theta) \end{align}$

Dan, distribusi kami di $S_n$ , $n \ge k$ adalah

\begin{aligned} Pr (S_{n} = i ∣ S_{k}) & = Pr (S_{n - k} = i - S_{k} | S_{k}) \\ = \int Pr (S_{n - k} = i - S_{k} | θ) Pr (θ ∣ S_{k}) d θ \end{aligned}

$\begin{align} \Pr(S_n = i \mid S_k) &= \Pr(S_{n-k} = i - S_k | S_k) \\ &= \int \Pr(S_{n-k} = i - S_k | \theta)\Pr(\theta \mid S_k)d\theta \\ \end{align}$

(dan juga untuk $n < k$ )

Kedua persamaan ini memiliki bentuk yang bagus ketika $F$ adalah distribusi dalam keluarga eksponensial yang ditutup dengan penjumlahan elemen iid seperti distribusi normal, distribusi gamma, dan distribusi binomial. Ini juga berfungsi untuk kasus khusus mereka seperti distribusi eksponensial dan distribusi Bernoulli.

Mungkin menarik untuk dipertimbangkan $F$ adalah keluarga yang diskalakan (oleh $\frac1n$ ) distribusi binomial dengan "percobaan" yang dikenal $n$ , dan mengambil batas sebagai $n$ pergi hingga tak terbatas.

— Neil G
sumber