Rasio kemungkinan vs Bayes Factor

Saya agak penginjilan sehubungan dengan penggunaan rasio kemungkinan untuk mewakili bukti objektif untuk / terhadap suatu fenomena tertentu. Namun, saya baru-baru ini belajar bahwa faktor Bayes melayani fungsi yang sama dalam konteks metode Bayesian (yaitu prior subyektif dikombinasikan dengan faktor Bayes objektif untuk menghasilkan keadaan kepercayaan subjektif yang diperbarui secara obyektif). Sekarang saya mencoba memahami perbedaan komputasi dan filosofis antara rasio kemungkinan dan faktor Bayes.

Pada tingkat komputasi, saya mengerti bahwa sementara rasio kemungkinan biasanya dihitung menggunakan kemungkinan yang mewakili kemungkinan maksimum untuk masing-masing parameterisasi masing-masing model (baik diperkirakan dengan validasi silang atau dihukum sesuai dengan kompleksitas model menggunakan AIC), tampaknya faktor Bayes entah bagaimana menggunakan kemungkinan yang mewakili kemungkinan masing-masing model terintegrasi di atas seluruh ruang parameternya (yaitu tidak hanya di MLE). Bagaimana sebenarnya integrasi ini dicapai secara khas? Apakah seseorang benar-benar hanya mencoba menghitung kemungkinan pada setiap ribuan (jutaan?) Sampel acak dari ruang parameter, atau adakah metode analitik untuk mengintegrasikan kemungkinan di seluruh ruang parameter? Selain itu, saat menghitung faktor Bayes,

Juga, apa perbedaan filosofis antara rasio kemungkinan dan faktor Bayes (nb saya tidak bertanya tentang perbedaan filosofis antara rasio kemungkinan dan metode Bayesian secara umum, tetapi faktor Bayes sebagai representasi dari bukti objektif khususnya). Bagaimana cara mengkarakterisasi makna faktor Bayes dibandingkan dengan rasio kemungkinan?

likelihood-ratio bayes-factors

— Mike Lawrence
sumber

Sudahkah Anda mempertimbangkan contoh di Wikipedia

— Henry

Buku karya Chen, Shao dan Ibrahim (2000) didedikasikan untuk perhitungan faktor-faktor Bayes di Monte Carlo.

— Xi'an

Jawaban:

rupanya faktor Bayes entah bagaimana menggunakan kemungkinan yang mewakili kemungkinan masing-masing model terintegrasi pada seluruh ruang parameternya (yaitu tidak hanya di MLE). Bagaimana sebenarnya integrasi ini dicapai secara khas? Apakah seseorang benar-benar hanya mencoba menghitung kemungkinan pada setiap ribuan (jutaan?) Sampel acak dari ruang parameter, atau adakah metode analitik untuk mengintegrasikan kemungkinan di seluruh ruang parameter?

$P(D|M)$ $D$ $M$

Penting untuk menempatkan faktor Bayes dalam pengaturan yang tepat. Ketika Anda memiliki dua model, katakanlah, dan Anda mengonversi dari probabilitas ke peluang, maka faktor Bayes bertindak seperti operator berdasarkan keyakinan sebelumnya:

P o s t e r i o r O d d s = B a y e s F a c t o r * P r i o r O d d s

$Posterior Odds = Bayes Factor * Prior Odds$

\frac{P (M_{1} | D)}{P (M_{2} | D)} = B . F . \times \frac{P (M_{1})}{P (M_{2})}

$\frac{P(M_{1}|D)}{P(M_{2}|D)} = B.F. \times \frac{P(M_{1})}{P(M_{2})}$

Perbedaan nyata adalah bahwa rasio kemungkinan lebih murah untuk dihitung dan secara umum lebih mudah untuk ditentukan secara konseptual. Kemungkinan pada MLE hanyalah perkiraan titik dari faktor pembilang dan penyebut faktor Bayes. Seperti konstruksi yang paling sering, itu dapat dilihat sebagai kasus khusus dari analisis Bayesian sebelum dibuat yang sulit untuk dicapai. Tetapi sebagian besar muncul karena secara analitik dapat ditelusuri dan lebih mudah untuk dihitung (di era sebelum perkiraan pendekatan komputasi Bayesian muncul).

Untuk titik pada perhitungan, ya: Anda akan mengevaluasi integral kemungkinan berbeda dalam pengaturan Bayesian dengan prosedur Monte Carlo skala besar di hampir semua kasus kepentingan praktis. Ada beberapa simulator khusus, seperti GHK, yang berfungsi jika Anda mengasumsikan distribusi tertentu, dan jika Anda membuat asumsi-asumsi ini, kadang-kadang Anda dapat menemukan masalah yang dapat ditelusuri secara analitik di mana terdapat faktor Bayes yang sepenuhnya analitik.

Tapi tidak ada yang menggunakan ini; tidak ada alasan untuk itu. Dengan sampler Metropolis / Gibbs yang dioptimalkan dan metode MCMC lainnya, sangat praktis untuk mendekati masalah ini dengan cara yang sepenuhnya didorong data dan menghitung integral Anda secara numerik. Bahkan, seseorang akan sering melakukan ini secara hierarkis dan lebih lanjut mengintegrasikan hasil lebih dari meta-prior yang berhubungan dengan mekanisme pengumpulan data, desain eksperimental yang tidak dapat diabaikan, dll.

Saya merekomendasikan buku Analisis Data Bayesian untuk informasi lebih lanjut tentang ini. Meskipun, penulis, Andrew Gelman, tampaknya tidak terlalu peduli dengan faktor Bayes . Selain itu, saya setuju dengan Gelman. Jika Anda akan pergi Bayesian, maka memanfaatkan posterior penuh. Melakukan pemilihan model dengan metode Bayesian seperti menghambat mereka, karena pemilihan model adalah bentuk inferensi yang lemah dan sebagian besar tidak berguna. Saya lebih suka mengetahui distribusi daripada pilihan model jika saya bisa ... siapa yang peduli tentang menghitungnya menjadi "model A lebih baik daripada model B" ketika Anda tidak perlu?

Selain itu, ketika menghitung faktor Bayes, apakah seseorang menerapkan koreksi untuk kompleksitas (secara otomatis melalui estimasi kemungkinan yang divalidasi silang atau secara analitis melalui AIC) seperti halnya dengan rasio kemungkinan?

$M_{1}$ $M_{2}$ $d_{1}$ $d_{2}$ $d_{1} < d_{2}$ $N$

$B_{1,2}$ $M_{1}$ $M_{1}$ $N\to\infty$ $B_{1,2}$ $\infty$

B_{1, 2} = O (N^{\frac{1}{2} (d_{2} - d_{1})})

$B_{1,2} = \mathcal{O}(N^{\frac{1}{2}(d_{2}-d_{1})})$

Saya akrab dengan derivasi ini dan diskusi dari buku Finite Mixture dan Markov Switching Models oleh Sylvia Frühwirth-Schnatter, tetapi ada kemungkinan lebih banyak akun statistik langsung yang masuk lebih dalam ke dalam epistemologi yang mendasarinya.

Saya tidak tahu detailnya cukup baik untuk diberikan di sini, tapi saya percaya ada beberapa hubungan teoritis yang cukup mendalam antara ini dan derivasi AIC. Buku Teori Informasi oleh Cover dan Thomas mengisyaratkan setidaknya ini.

Juga, apa perbedaan filosofis antara rasio kemungkinan dan faktor Bayes (nb saya tidak bertanya tentang perbedaan filosofis antara rasio kemungkinan dan metode Bayesian secara umum, tetapi faktor Bayes sebagai representasi dari bukti objektif khususnya). Bagaimana cara mengkarakterisasi makna faktor Bayes dibandingkan dengan rasio kemungkinan?

Bagian artikel Wikipedia tentang "Interpretasi" melakukan pekerjaan yang baik untuk membahas hal ini (terutama bagan yang menunjukkan kekuatan skala bukti Jeffreys).

Seperti biasa, tidak ada banyak hal filosofis di luar perbedaan mendasar antara metode Bayesian dan metode sering (yang Anda sudah terbiasa dengan).

Hal utama adalah bahwa rasio kemungkinan tidak masuk akal dalam pengertian buku Belanda. Anda dapat membuat skenario di mana inferensi pemilihan model dari rasio kemungkinan akan menyebabkan orang menerima taruhan yang hilang. Metode Bayesian adalah koheren, tetapi beroperasi pada prior yang bisa sangat miskin dan harus dipilih secara subyektif. Pengorbanan .. pengorbanan ...

FWIW, saya pikir pemilihan model yang sangat parameterisasi ini tidak terlalu baik. Saya lebih suka metode Bayesian dan saya lebih suka mengaturnya secara lebih hierarkis, dan saya ingin kesimpulannya berpusat pada distribusi posterior penuh jika memungkinkan secara komputasi untuk melakukannya. Saya pikir faktor Bayes memiliki beberapa sifat matematika yang rapi, tetapi sebagai seorang Bayesian sendiri, saya tidak terkesan oleh mereka. Mereka menyembunyikan bagian yang sangat berguna dari analisis Bayesian, yaitu bahwa hal itu memaksa Anda untuk berurusan dengan para prior Anda di tempat terbuka alih-alih menyapu mereka di bawah permadani, dan memungkinkan Anda untuk melakukan inferensi pada tampilan penuh.

— Ely
sumber

"Seperti biasa, tidak ada banyak hal filosofis di luar perbedaan dasar antara metode Bayesian dan metode sering (yang Anda tampaknya sudah akrab dengan). Hal utama adalah bahwa tes rasio kemungkinan ..." Hanya titik klarifikasi, saya tidak bermaksud membandingkan faktor Bayes dengan uji rasio kemungkinan, tetapi dengan rasio kemungkinan sendiri, tanpa bagasi pengujian hipotesis yang sering / nol.

— Mike Lawrence

Berdasarkan klarifikasi saya di atas: Oleh karena itu, bagi saya kelihatannya perbedaan besar antara BFs dan LR adalah, seperti yang Anda katakan, yang sebelumnya dikoreksi secara otomatis untuk kompleksitas tetapi membutuhkan banyak perhitungan sementara yang terakhir membutuhkan perhitungan yang jauh lebih sedikit tetapi membutuhkan koreksi eksplisit. untuk kompleksitas model (baik menggunakan AIC, yang cepat secara komputasi, atau lintas-validasi, yang agak lebih mahal secara komputasi).

— Mike Lawrence

Maaf, tes rasio kemungkinan adalah kesalahan ketik, seharusnya hanya rasio kemungkinan. Saya pikir Anda sebagian besar benar, tetapi Anda masih kehilangan gambaran yang lebih besar bahwa rasio kemungkinan hanyalah perkiraan titik. Ini hanya akan berguna jika distribusi probabilitas yang mendasari berperilaku baik hingga perkiraan kuadrat di lingkungan MLE .. Faktor Bayes tidak perlu peduli dengan sifat distribusi asimptotik seperti ini, jadi secara khusus lebih umum. Ini merangkum inferensi pemilihan model berbasis MLE.

— ely

Dengan kata lain, MLE dapat dipandang sebagai penaksir a posteriori (MAP) maksimum, hanya dengan prior yang tidak tepat (ketika integrasi memungkinkan untuk hal ini), dan MAP adalah estimasi titik yang lebih menarik karena menggabungkan informasi sebelumnya. Sekarang, alih-alih hanya memilih mode posterior ... mengapa tidak menggabungkan semua nilai posterior sesuai dengan probabilitas sebelumnya? Ini tidak akan memberi Anda estimasi titik parameter, tetapi paling sering orang tidak benar-benar menginginkan estimasi titik. Distribusi atas parameter selalu lebih berguna daripada perkiraan titik ketika Anda mampu untuk mendapatkan mereka

— ely

Dalam memahami perbedaan antara rasio kemungkinan dan faktor Bayes, penting untuk mempertimbangkan satu fitur utama dari faktor Bayes secara lebih rinci:

Bagaimana faktor Bayes mengelola untuk secara otomatis memperhitungkan kompleksitas model yang mendasarinya?

Satu perspektif pada pertanyaan ini adalah mempertimbangkan metode untuk kesimpulan inferensi deterministik. Variational Bayes adalah salah satu metode tersebut. Ini mungkin tidak hanya secara dramatis mengurangi kompleksitas komputasi dari perkiraan stokastik (misalnya, pengambilan sampel MCMC). Variational Bayes juga memberikan pemahaman intuitif tentang apa yang membentuk faktor Bayes.

Ingat dulu bahwa faktor Bayes didasarkan pada bukti model dari dua model yang bersaing,

\begin{aligned} B F_{1, 2} = \frac{p (data ∣ M_{1})}{p (data ∣ M_{2})}, \end{aligned}

$\begin{align} BF_{1,2} = \frac{p(\textrm{data} \mid M_1)}{p(\textrm{data} \mid M_2)}, \end{align}$

di mana bukti masing-masing model harus dihitung oleh integral yang rumit:

\begin{aligned} p (data ∣ M_{i}) = \int p (data ∣ θ, M_{i}) p (θ ∣ M_{i}) d θ \end{aligned}

$\begin{align} p(\textrm{data} \mid M_i) = \int p(\textrm{data} \mid \theta,M_i ) \ p(\theta \mid M_i) \ \textrm{d}\theta \end{align}$

$p(\theta \mid \textrm{data}, M_i)$

$q(\theta)$ $p(\theta \mid \textrm{data},M_i)$

$\mathcal{F}$

\begin{aligned} F = log p (data ∣ M_{i}) - KL [q (θ) | | p (θ ∣ data, M_{i})] \end{aligned}

$\begin{align} \mathcal{F} = \textrm{log} \; p(\textrm{data} \mid M_i) - \textrm{KL}\left[q(\theta) \; || \; p(\theta \mid \textrm{data},M_i) \right] \end{align}$

$q(\theta) \approx p(\theta \mid \textrm{data},M_i)$ $\mathcal{F}$

Kita sekarang dapat kembali ke pertanyaan awal tentang bagaimana faktor Bayes secara otomatis menyeimbangkan kebaikan dan kompleksitas model yang terlibat. Ternyata energi-negatif dapat ditulis ulang sebagai berikut:

\begin{aligned} F = {⟨ p (data ∣ θ, M_{i}) ⟩}_{q} - KL [q (θ) | | p (θ ∣ M_{i})] \end{aligned}

$\begin{align} \mathcal{F} = \left\langle p(\textrm{data} \mid \theta,M_i) \right\rangle_q - \textrm{KL}\left[ q(\theta) \; || \; p(\theta \mid M_i) \right] \end{align}$

Istilah pertama adalah kemungkinan log dari data yang diharapkan di bawah perkiraan posterior; itu mewakili goodness of fit (atau akurasi ) dari model. Istilah kedua adalah divergensi KL antara perkiraan posterior dan sebelumnya; itu mewakili kompleksitas model, di bawah pandangan bahwa model yang lebih sederhana adalah salah satu yang lebih konsisten dengan keyakinan kami sebelumnya, atau di bawah pandangan bahwa model yang lebih sederhana tidak harus diperluas sebanyak untuk mengakomodasi data.

Perkiraan energi bebas untuk bukti model log menunjukkan bahwa bukti model menggabungkan trade-off antara pemodelan data (yaitu, goodness of fit) dan tetap konsisten dengan yang sebelumnya (yaitu, kesederhanaan atau kompleksitas negatif).

Faktor Bayes (berbeda dengan rasio kemungkinan) dengan demikian mengatakan mana dari dua model yang bersaing lebih baik dalam memberikan penjelasan data yang sederhana namun akurat .

— Kay Brodersen
sumber