Bisakah saya subsampel dataset besar di setiap iterasi MCMC?

Masalah: Saya ingin melakukan sampling Gibbs untuk menyimpulkan beberapa posterior lebih dari dataset besar. Sayangnya, model saya tidak terlalu sederhana dan dengan demikian pengambilan sampel terlalu lambat. Saya akan mempertimbangkan pendekatan variasional atau paralel, tetapi sebelum melangkah sejauh itu ...

Pertanyaan: Saya ingin tahu apakah saya dapat sampel secara acak (dengan penggantian) dari dataset saya di setiap iterasi Gibbs, sehingga saya memiliki lebih sedikit contoh untuk belajar dari pada setiap langkah.

Intuisi saya adalah bahwa bahkan jika saya mengubah sampel, saya tidak akan mengubah kepadatan probabilitas dan oleh karena itu sampel Gibbs seharusnya tidak memperhatikan triknya. Apakah saya benar? Apakah ada beberapa referensi orang yang melakukan ini?

— Alberto
sumber

Sebagai tambahan: ide lain adalah melakukan beberapa analisis pada subsampel acak dari dataset besar. Dengan begitu Anda juga bisa memvalidasi silang.

— Dugaan

Saya tidak dapat menjawab pertanyaan persis Anda dengan otoritas apa pun (walaupun kecurigaan saya adalah bahwa Anda hanya akan meningkatkan kesalahan perkiraan yang menyertai Monte Carlo), kebenaran yang menyedihkan adalah bahwa ini hanyalah aspek yang tidak menguntungkan dari analisis MCMC Bayesian: mereka bersifat komputasi mahal. Komentar @conjectures adalah ide yang bagus, tetapi tidak benar-benar menjadi inti permasalahan: terlalu mahal untuk menggambar semua sampel tersebut untuk setiap individu. Rekomendasi saya adalah menulis kode C Anda sendiri untuk pekerjaan berat (Rcpp dalam R, Cython dalam Python, dll.) Dan juga memparalelkan (ketika tidak ada dependensi cabang).

@conjectures Ini kedengarannya seperti tas bootstraps kecil Michael Jordan.

— jaradniemi

Saya akan menyarankan mengubah sampler Anda untuk menghindari augmentasi variabel laten sama sekali. Anda tidak akan lagi memiliki sampler Gibbs, tetapi algoritma Metropolis-Hastings dengan proposal berdasarkan perkiraan normal kemungkinan akan bekerja dengan baik. Lihat Bagian 16.4 edisi ke-2 dari Analisis Data Bayesian.

— jaradniemi

Ini adalah area penelitian aktif yang saya tidak tahu cukup baik untuk merangkum secara akurat untuk Anda. Lihat misalnya jmlr.org/proceedings/papers/v32/bardenet14.pdf dan arxiv.org/pdf/1304.5299v4.pdf

— Andrew M

Tentang strategi subsampling: misalnya, pertimbangkan untuk memiliki dua pengamatan dan dan pertimbangkan untuk menempatkan beberapa prior pada mean dan perbedaan. Biarkan , posterior yang ingin kita evaluasi adalah PILIH sekarang menjadi variabel binomial . Jika kita memilih , jika kita memilih , posterior baru adalah mana $X_1 \sim N(\mu_1, \sigma_1^2)$ $X_2 \sim N(\mu_2,\sigma_2^2)$ $\theta = (\mu_1, \mu_2, \sigma_1^2, \sigma_2^2)$

f (θ | X_{1}, X_{2}) \propto f (X_{1} | θ) f (X_{2} | θ) f (θ)

$f(\theta|X_1, X_2) \propto f(X_1|\theta)f(X_2 | \theta)f(\theta)$

δ \sim B (0.5)

$\delta \sim B(0.5)$

δ = 0

$\delta=0$

X_{1}

$X_1$

δ = 1

$\delta =1$

X_{2}

$X_2$

f (θ, δ | X_{1}, X_{2}) \propto f (X_{1}, X_{2} | δ, θ) f (θ) f (δ)

$f(\theta, \delta|X_1, X_2) \propto f(X_1, X_2|\delta,\theta)f(\theta)f(\delta)$

f (X_{1}, X_{2} | δ, θ) = f (X_{1} | θ)^{δ} f (X_{2} | θ)^{1 - δ}

$f(X_1, X_2|\delta,\theta) = f(X_1|\theta)^{\delta} f(X_2|\theta)^{1-\delta}$ dan . Sekarang jika Anda ingin sampel dengan langkah Gibbs Anda harus menghitung dan karena . Jika Anda menggunakan Metropolis Hastings maka Anda mengusulkan negara bagian baru dan Anda harus menghitung hanya satu di antara dan , yang terkait dengan negara yang diusulkan tetapi Anda harus menghitung satu antara dan

f (δ) = 0.5

$f(\delta) = 0.5$

δ

$\delta$

f (X_{1} | θ)

$f(X_1|\theta)$

f (X_{2} | θ)

$f(X_2|\theta)$

P (δ = 1) = \frac{f (X_{1} | θ)}{f (X_{1} | θ) + f (X_{2} | θ)}

$P(\delta=1)= \frac{f(X_1|\theta) }{f(X_1|\theta) +f(X_2|\theta) }$

δ^{*}

$\delta^*$

f (X_{1} | θ)

$f(X_1|\theta)$

f (X_{2} | θ)

$f(X_2|\theta)$

f (X_{1} | θ)

$f(X_1|\theta)$

f (X_{2} | θ)

$f(X_2|\theta)$ bahkan untuk keadaan terakhir diterima . Maka saya tidak yakin bahwa metropolis akan memberi Anda beberapa keuntungan. Terlebih lagi di sini kita sedang mempertimbangkan proses bivariat, tetapi dengan proses multivariat pengambilan sampel dari bisa sangat rumit dengan metropolis.

δ

$\delta$

δ

$\delta$

— niandra82
sumber