Apa yang setara dengan Bayesian untuk tes kecocokan umum?

25

Saya memiliki dua set data, satu dari serangkaian pengamatan fisik (suhu), dan satu dari rangkaian model numerik. Saya sedang melakukan analisis model-sempurna, dengan asumsi ansambel model mewakili sampel yang benar dan independen, dan memeriksa untuk melihat apakah pengamatan diambil dari distribusi itu. Statistik yang saya hitung dinormalisasi, dan secara teoritis seharusnya menjadi distribusi normal standar. Tentu saja itu tidak sempurna, jadi saya ingin menguji untuk kebaikan.

Menggunakan penalaran yang sering, saya bisa menghitung statistik Cramér-von Mises (atau Kolmogorov-Smirnov, dll.), Atau yang serupa, dan mencari nilai dalam tabel untuk mendapatkan nilai-p, untuk membantu saya memutuskan seberapa kecil kemungkinan nilai saya. lihat adalah, mengingat pengamatan sama dengan model.

Apa yang setara dengan Bayesian dari proses ini? Yaitu, bagaimana saya mengukur kekuatan keyakinan saya bahwa dua distribusi ini (statistik saya yang dihitung dan standar normal) berbeda?

bayesian goodness-of-fit

— tidak ada apa-apa101
sumber

Sesuatu seperti ini mungkin sesuai dengan tagihan.

— Cyan

23

Saya akan menyarankan buku Analisis Data Bayesian sebagai sumber yang bagus untuk menjawab pertanyaan ini (khususnya bab 6) dan semua yang akan saya katakan. Tetapi salah satu cara biasa yang digunakan Bayesian untuk menyerang masalah ini adalah dengan menggunakan Posterior Predictive P-values (PPPs). Sebelum saya beralih ke bagaimana KPS akan menyelesaikan masalah ini, izinkan saya terlebih dahulu menentukan notasi berikut:

$y$ $\theta$ $y^{\text{rep}}$ $y$ $\theta$

$y^{\text{rep}}$

p (y^{rep} | y) = \int_{Θ} p (y^{rep} | θ) p (θ | y) d θ

$p(y^{\text{rep}}|y)=\int_\Theta p(y^{\text{rep}}|\theta)p(\theta|y)d\theta$

$T(y,\theta)$ $T(y)$ untuk statistik uji, yang merupakan jumlah uji yang hanya bergantung pada data; dalam konteks Bayesian, kita dapat menggeneralisasikan statistik uji untuk memungkinkan ketergantungan pada parameter model di bawah distribusi posterior mereka.

$T(y)$

p_{C} = Pr (T (y^{rep}) \geq T (y) | θ)

$p_C=\text{Pr}(T(y^{\text{rep}})\geq T(y)|\theta)$

y^{rep}

$y^{\text{rep}}$

θ

$\theta$

$(\theta,y^{\text{rep}})$

p_{B} = Pr (T (y^{rep}, θ) \geq T (y, θ) | y)

$p_B=\text{Pr}(T(y^{\text{rep}},\theta)\geq T(y,\theta)|y)$

θ

$\theta$

y^{rep}

$y^{\text{rep}}$

p (θ, y^{rep} | y)

$p(\theta,y^{\text{rep}}|y)$

p_{B} = \iint_{Θ} I_{T (y^{rep}, θ) \geq T (y | θ)} p (y^{rep} | θ) p (θ | y) d y^{rep} d θ,

$p_B=\iint_\Theta I_{T(y^{\text{rep}},\theta)\geq T(y|\theta)}p(y^{\text{rep}}|\theta)p(\theta|y)dy^{\text{rep}}d\theta,$

I

$I$

Jika sudah, katakan, $L$ $\theta$ $y^{\text{rep}}$ $\theta$ $L$ $p(y^{\text{rep}},\theta|y)$ $T(y,\theta^l)$ $T(y^{\text{rep}l},\theta^l)$ $L$

T (y^{rep l}, θ^{l}) \geq T (y, θ^{l})

$T(y^{\text{rep}l},\theta^l)\geq T(y,\theta^l)$

l = 1, . . ., L

$l=1,...,L$

Berbeda dengan pendekatan klasik, pengecekan model Bayesian tidak memerlukan metode khusus untuk menangani "parameter gangguan." Dengan menggunakan simulasi posterior, kami secara implisit rata-rata atas semua parameter dalam model.

Sumber tambahan, Andrew Gelman juga memiliki makalah yang sangat bagus tentang PPP di sini: http://www.stat.columbia.edu/~gelman/research/unpublished/ppc_understand2.pdf

— fsociety
sumber

3

Satu kemungkinan yang relatif sederhana: Uji kelancaran goodness of fit misalnya [1] - yang membingkai alternatif dalam hal penyimpangan halus dari nol, dibangun oleh polinomial ortogonal (berkenaan dengan kepadatan nol sebagai fungsi berat) akan relatif mudah untuk terbawa ke kerangka Bayesian, karena koefisien polinomial membentuk ekstensi fleksibel tapi parametrik dari nol.

[1]: Rayner, JCW dan DJ Best (1990),
"Uji Kelancaran Goodness of Fit: Tinjauan," Tinjauan
Statistik Internasional , 58 : 1 (Apr), hlm. 9-17

— Glen_b -Reinstate Monica
sumber