Rao-Blackwellization of Gibbs Sampler

Saat ini saya memperkirakan model volatilitas stokastik dengan metode Markov Chain Monte Carlo. Dengan demikian, saya menerapkan metode pengambilan sampel Gibbs dan Metropolis.

Dengan asumsi saya mengambil rata-rata distribusi posterior daripada sampel acak dari itu, apakah ini yang biasa disebut sebagai Rao-Blackwellization ?

Secara keseluruhan, ini akan menghasilkan pengambilan rata-rata dari distribusi posterior sebagai estimasi parameter.

— mscnvrsy
sumber

Jawaban:

Dengan asumsi saya mengambil rata-rata distribusi posterior daripada sampel acak dari itu, apakah ini yang biasa disebut sebagai Rao-Blackwellization?

Saya tidak terlalu terbiasa dengan model volatilitas stokastik, tetapi saya tahu bahwa di sebagian besar pengaturan, alasan kami memilih algoritma Gibbs atau MH untuk menggambar dari posterior, adalah karena kami tidak tahu posterior. Seringkali kita ingin memperkirakan rata-rata posterior, dan karena kita tidak tahu rata-rata posterior, kita mengambil sampel dari posterior dan memperkirakannya menggunakan mean sampel. Jadi, saya tidak yakin bagaimana Anda akan dapat mengambil mean dari distribusi posterior.

Alih-alih, penduga Rao-Blackwellized bergantung pada pengetahuan tentang rata-rata kondisi penuh; namun demikian pengambilan sampel masih diperlukan. Saya jelaskan lebih lanjut di bawah ini.

Misalkan distribusi posterior didefinisikan pada dua variabel, ), sehingga Anda ingin memperkirakan rata-rata posterior: . Sekarang, jika sampler Gibbs tersedia, Anda bisa menjalankannya atau menjalankan algoritma MH untuk mengambil sampel dari posterior. $\theta = (\mu, \phi$ $E[\theta \mid \text{data}]$

Jika Anda dapat menjalankan sampler Gibbs, maka Anda tahu dalam bentuk tertutup dan Anda tahu rata-rata distribusi ini. Biarkan itu berarti . Perhatikan bahwa adalah fungsi dari dan data. $f(\phi \mid \mu, data)$ $\phi^*$ $\phi^*$ $\mu$

Ini juga berarti bahwa Anda dapat mengintegrasikan dari posterior, sehingga posterior marginal dari adalah (ini tidak diketahui sepenuhnya, tetapi dikenal hingga konstan). Sekarang Anda ingin menjalankan rantai Markov sehingga adalah distribusi invarian, dan Anda mendapatkan sampel dari posterior marginal ini. Pertanyaannya adalah $\phi$ $\mu$ $f(\mu \mid data)$ $f(\mu \mid data)$

Bagaimana Anda bisa memperkirakan rata-rata posterior hanya menggunakan sampel-sampel ini dari posterior marginal ? $\phi$ $\mu$

Ini dilakukan melalui Rao-Blackwellization.

\begin{aligned} E [ϕ ∣ d a t a] & = \int ϕ f (μ, ϕ ∣ d a t a) d μ d ϕ \\ = \int ϕ f (ϕ ∣ μ, d a t a) f (μ ∣ d a t a) d μ d ϕ \\ = \int ϕ^{*} f (μ ∣ d a t a) d μ . \end{aligned}

$\begin{align*} E[\phi \mid data]& = \int \phi \; f(\mu, \phi \mid data) d\mu \, d\phi\\ & = \int \phi \; f(\phi \mid \mu, data) f(\mu \mid data) d\mu \, d\phi\\ & = \int \phi^* f(\mu \mid data) d\mu. \end{align*}$

Jadi misalkan kita telah mendapatkan sampel dari posterior marginal . Kemudian $X_1, X_2, \dots X_N$ $\mu$

\hat{ϕ} = \frac{1}{N} \sum_{i = 1}^{N} ϕ^{*} (X_{i}),

$\hat{\phi} = \dfrac{1}{N} \sum_{i=1}^{N} \phi^*(X_i),$

disebut penduga Rao-Blackwellized untuk . Hal yang sama dapat dilakukan dengan mensimulasikan dari marginal bersama juga. $\phi$

Contoh (Murni untuk demonstrasi).

Misalkan Anda memiliki posterior gabungan yang tidak diketahui untuk dari mana Anda ingin sampel. Data Anda sebagian , dan Anda memiliki persyaratan lengkap berikut $\theta = (\mu, \phi)$ $y$

μ ∣ ϕ, y \sim N (ϕ^{2} + 2 y, y^{2})

$\mu \mid \phi, y \sim N(\phi^2 + 2y, y^2)$

ϕ ∣ μ, y \sim G a m m a (2 μ + y, y + 1)

$\phi \mid \mu, y \sim Gamma(2\mu + y, y + 1)$

Anda menjalankan sampler Gibbs menggunakan persyaratan ini, dan mendapatkan sampel dari posterior bersama . Biarkan sampel ini menjadi . Anda dapat menemukan rata-rata sampel dari , dan itu akan menjadi penduga Monte Carlo biasa untuk rata-rata posterior untuk .. $f(\mu, \phi \mid y)$ $(\mu_1, \phi_1), (\mu_2, \phi_2), \dots, (\mu_N, \phi_N)$ $\phi$ $\phi$

Atau, perhatikan bahwa dengan properti distribusi Gamma

E [ϕ | μ, y] = \frac{2 μ + y}{y + 1} = ϕ^{*} .

$E[\phi | \mu, y] = \dfrac{2 \mu + y}{y + 1} = \phi^*.$

Di sini adalah data yang diberikan kepada Anda dan dengan demikian diketahui. Penaksir Rao Blackwellized akan menjadi $y$

\hat{ϕ} = \frac{1}{N} \sum_{i = 1}^{N} \frac{2 μ_{i} + y}{y + 1} .

$\hat{\phi} = \dfrac{1}{N} \sum_{i=1}^{N} \dfrac{2 \mu_i + y}{y + 1}.$

Perhatikan bagaimana estimator untuk rata-rata posterior dari bahkan tidak menggunakan sampel , dan hanya menggunakan sampel . Bagaimanapun, seperti yang Anda lihat, Anda masih menggunakan sampel yang Anda peroleh dari rantai Markov. Ini bukan proses deterministik. $\phi$ $\phi$ $\mu$

— Greenparker
sumber

Jadi dengan asumsi distribusi posterior dari parameter diketahui (yang sejauh pengetahuan saya kebetulan benar ketika menerapkan sampling Gibbs), mengambil rata-rata distribusi daripada sampel acak akan menjadi penduga Rao-Blackwellized? Saya harap saya mengerti jawaban Anda dengan benar. Terima kasih banyak!

— mscnvrsy

Itu tidak benar. Dalam sampling Gibbs, Anda tidak tahu distribusi posterior parameter, tetapi tahu posterior bersyarat penuh untuk setiap parameter. Ada perbedaan besar di antara keduanya. Di atas, posterior adalah yang tidak diketahui, dan agar sampler Gibbs berfungsi, Anda harus mengetahui dan . Dan Anda juga salah dalam pemahaman kedua Anda. Anda masih perlu mengambil sampel dari posterior marginal , dan kemudian menghitung rata-rata sampel menggunakan sampel-sampel itu untuk menemukan estimator RB.

f (μ, ϕ ∣ d a t a)

$f(\mu, \phi \mid data)$

f (μ ∣ ϕ, d a t a)

$f(\mu \mid \phi, data)$

f (ϕ ∣ μ, d a t a)

$f(\phi \mid \mu, data)$

μ

$\mu$

ϕ^{*}

$\phi^*$

— Greenparker

@mscnvrsy Saya menambahkan contoh untuk membantu

— Greenparker

Wow, terima kasih banyak telah mengklarifikasi ini kepada saya. Jadi dengan asumsi bahwa saya mengetahui distribusi bersyarat penuh, saya dapat bekerja dengan cara-cara teoritis dari distribusi bersyarat dan rata-rata di atas cara-cara teoritis ini (seperti E [phi | mu, y]) untuk mendapatkan estimator RB? Ini kemudian akan meminimalkan varian estimasi parameter saya?

— mscnvrsy

Jika Anda mendapatkan sampel independen, ya itu akan meminimalkan varians dari penaksir, namun, karena Anda berurusan dengan rantai Markov, umumnya diketahui bahwa RB tidak selalu mengurangi varians, dan ada beberapa contoh di mana varians bahkan meningkat. Makalah ini oleh Charlie Geyer memberi beberapa contoh untuk titik ini.

— Greenparker

Sampler Gibbs kemudian dapat digunakan untuk meningkatkan efisiensi (katakanlah) sampel dari posterior marginal, sebut saja . Catatan Demikianlah, kepadatan marginal dari pada beberapa nilai adalah nilai yang diharapkan dari kepadatan bersyarat dari diberikan pada titik . $\pi_2(\theta_2|y)$

\begin{array}{rcl} π_{2} (θ_{2} | y) & = & \int π (θ_{1}, θ_{2} | y) d θ_{1} \\ = & \int π_{2 | 1} (θ_{2} | θ_{1}, y) π_{1} (θ_{1} | y) d θ_{1} \\ = & E (π_{2 | 1} (θ_{2} | θ_{1}, y)) \end{array}

$\begin{eqnarray*} \pi_2(\theta_2|y)&=&\int \pi(\theta_1,\theta_2|y)d\theta_1\\ &=&\int \pi_{2|1}(\theta_2|\theta_1,y)\pi_1(\theta_1|y)d\theta_1\\ &=&E(\pi_{2|1}(\theta_2|\theta_1,y)) \end{eqnarray*}$

θ_{2}

$\theta_2$

θ_{2}

$\theta_2$

θ_{2}

$\theta_2$

θ_{1}

$\theta_1$

θ_{2}

$\theta_2$

Ini menarik karena Varian Dekomposisi Lemma mana varian varian bersyarat adalah . Juga, . Secara khusus, Sampler Gibbs akan memberi kita realisasi . Hasilnya adalah lebih baik untuk memperkirakan dengan dibandingkan dengan beberapa estimasi kepadatan kernel konvensional menggunakan untuk titik

V Sebuah r (X) = E [V Sebuah r (X | Y)] + V Sebuah r [E (X | Y)],

$Var(X)=E[Var(X|Y)]+Var[E(X|Y)],$

V a r (X | Y)

$Var(X|Y)$

E {(X - E (X | Y))^{2} | Y}

$E\left\{(X-E(X|Y))^2|Y\right\}$

V a r (E (X | Y)) = E [(E (X | Y) - E (X))^{2}]

$Var(E(X|Y))=E\left[(E(X|Y)-E(X))^2\right]$

V Sebuah r (X) \geq V Sebuah r [E (X | Y)] .

$Var(X)\geq Var[E(X|Y)].$

(θ_{1 i}, θ_{2 i})

$(\theta_{1i},\theta_{2i})$

π_{2} (θ_{2} | y)

$\pi_2(\theta_2|y)$

{\hat{π}}_{2} (θ_{2} | y) = \frac{1}{M.} \sum_{saya = 1}^{M.} π_{2 | 1} (θ_{2} | θ_{1 saya}, y)

$\hat{\pi}_2(\theta_2|y)=\frac{1}{M}\sum_{i=1}^M\pi_{2|1}(\theta_2|\theta_{1i},y)$

θ_{2 i}

$\theta_{2i}$

θ_{2}

$\theta_2$ - asalkan kita tahu distribusi bersyarat (yang tentu saja mengapa kita menggunakan sampling Gibbs di tempat pertama).

Contoh

Misalkan dan adalah bivariat normal dengan rata-rata nol, varian 1 dan korelasi . Yaitu, Jelas, sedikit, , tetapi marilah kita berpura-pura kita tidak tahu ini. Sudah diketahui bahwa distribusi kondisional dari diberikan adalah . $X$ $Y$ $\rho$

π (x, y) \propto \exp {- \frac{1}{2 (1 - ρ^{2})} (x^{2} + y^{2} - 2 ρ x y)}

$\pi(x,y)\propto\exp\left\{-\frac{1}{2(1-\rho^2)}(x^2+y^2-2\rho x y)\right\}$

Y \sim N (0, 1)

$Y\sim N(0,1)$

Y

$Y$

X = x

$X=x$

N (ρ x, 1 - ρ^{2})

$N(\rho x,1-\rho^2)$

Dengan beberapa realisasi dari estimasi "Rao-Blackwell" dari kepadatan pada maka adalah Sebagai ilustrasi, mari kita bandingkan perkiraan kepadatan kernel dengan pendekatan RB $M$ $(X,Y)$ $Y$ $y$

{\hat{π}}_{Y} (y) = \frac{1}{M.} \sum_{saya = 1}^{M.} \frac{1}{\sqrt{1 - ρ^{2}} \sqrt{2 π}} \exp {- \frac{1}{2 (1 - ρ^{2})} (y - ρ x_{saya})^{2}}

$\hat\pi_Y(y)=\frac{1}{M}\sum_{i=1}^M\frac{1}{\sqrt{1-\rho^2}\sqrt{2\pi}}\exp\left\{-\frac{1}{2(1-\rho^2)}(y-\rho x_i)^2\right\}$

library(mvtnorm)

rho <- 0.5
R <- 50
xy <- rmvnorm(n=R, mean=c(0,0), sigma= matrix(c(1,rho,rho,1), ncol=2))
x <- xy[,1]
y <- xy[,2]

kernel_density <- density(y, kernel = "gaussian")
plot(kernel_density,col = "blue",lty=2,main="Rao-Blackwell estimates from conditional normals",ylim=c(0,0.4))
legend(1.5,.37,c("Kernel","N(0,1)","Rao-Blackwell"),lty=c(2,1,3),col=c("blue","black","red"))
g <- seq(-3.5,3.5,length=100)
lines(g,dnorm(g),lty=1) # here's what we pretend not to know

density_RB <- rep(0,100)
for(i in 1:100) {density_RB[i] <- mean(dnorm(g[i], rho*x, sd = sqrt(1-rho^2)))}
lines(g,density_RB,col = "red",lty=3)

Kami mengamati bahwa perkiraan RB jauh lebih baik (karena mengeksploitasi informasi bersyarat):

— Christoph Hanck
sumber