Perbandingan model Bayesian di sekolah menengah

Saya mengajar fisika untuk siswa sekolah menengah, dan saya ingin siswa saya melakukan perbandingan model Bayesian yang belum sempurna untuk data dari eksperimen mereka. Saya menemukan cara bagi mereka untuk melakukannya (lihat di bawah), tetapi saya tidak yakin itu benar. Saya akan sangat menghargai umpan balik tentang itu (terutama umpan balik negatif!), Atau saran tentang bagaimana melakukannya dengan lebih baik.

Saya ingin membandingkan teori linear, dengan parameter kemiringan dan mencegat , dengan hipotesis nol dari konstanta yaitu kemiringan = 0. Dalam kedua kasus saya menganggap noise simetris Gaussian. $a$ $b$ $a$

Para siswa dapat memperoleh, menggunakan Excel, perkiraan kemungkinan maksimum untuk kemiringan dan mencegat ( dan ), dan kesalahan mereka dan . $\hat{a}$ $\hat{b}$ $da$ $db$

Untuk sebelumnya pada lereng, saya mempertimbangkan Gaussian luas, berpusat pada maksimum = perkiraan kemungkinan ( ) dan dengan standar deviasi sepuluh kali lipat. Alasan saya adalah bahwa saya secara realistis mengharapkan mereka untuk menemukan parameter garis "benar" paling tidak dalam besaran, dan dalam praktiknya mereka akan menemukan yang lebih dekat lagi jadi jika saya mengganti lereng "benar" dengan MLE-nya, saya tidak akan mengubah angka terlalu banyak. $\hat{a}$
Untuk kemungkinan bukti yang diberikan teori linear tertentu, saya mempertimbangkan distribusi Gaussian multivariat standar, dengan standar deviasi ( ) terkait dengan jumlah residu kuadrat. $\sigma_e$
Kemungkinan bukti untuk teori linier secara umum, yaitu integral dari sebelum dan kemungkinan di atas, karenanya diperkirakan sebagai yang sebelumnya dan kemungkinan pada titik MLE, dikalikan kesalahan dalam kemiringan . $da$
Kemungkinan bukti yang diberikan hipotesis nol diasumsikan sebagai Gaussian multivariat lain, sekarang menggunakan standar deviasi total ( ), berdasarkan perbedaan dari rata-rata-Y. $\sigma_T$
Ini adalah bagian yang saya paling tidak yakin: Saya memperkirakan faktor Bayes menjadi rasio dari dua kemungkinan di atas (3 dan 4 di atas), yang memungkinkan saya untuk menghasilkan rumus berikut:

$B_{10}=\frac{da}{(10 |\hat{a}| \cdot \sqrt{2 \pi})}(\sigma_T/\sigma_e)^N\cdot \sqrt{e}$

Apakah ini akan memberi kami perkiraan yang masuk akal untuk faktor Bayes? Setiap umpan balik diterima.

— Guru Fisika
sumber

Saya mengedit rumus Anda menggunakan MathJax untuk memberikan tampilan yang lebih ramping dan lebih mudah dibaca. Jangan ragu untuk mengeditnya jika saya salah menerjemahkannya

— Marquis de Carabas

Terima kasih! Namun, dua suku terakhir (rasio s dan akar kuadrat dari e) harus berada di luar fraksi, atau dalam pembilang.

— PhysicsTeacher

Oh! Seperti LaTex! Saya mengoreksi formula; Terima kasih lagi.

— PhysicsTeacher

Pertama, izinkan saya mengatakan bahwa pengujian yang masuk akal terhadap hipotesis yang tajam seperti memerlukan distribusi yang matang sebelumnya untuk , karena faktor Bayes sangat bergantung pada hal ini sebelumnya. Banyak orang Bayesian tidak akan menguji hipotesis yang tajam, tetapi saya akan melakukannya. $a=0$ $a$

Sebelum melanjutkan, saya harus memberi tahu Anda bahwa saya tidak benar-benar mengerti apa yang Anda katakan sedang Anda lakukan dan jadi saya mungkin memberi Anda nasihat yang tidak Anda cari. Saya harap Anda dapat mengikuti notasi may.

Biarkan data menjadi pengamatan: , di mana (menurut model yang lebih umum dan termasuk kemiringan) (Saya menekan variabel independen dari daftar argumen pengkondisian untuk kesederhanaan notasi.) Kemungkinan diberikan oleh Diberi sebelum , distribusi posterior adalah mana kemungkinan data menurut model yang lebih umum adalah $n$ $y = ((x_1,y_1), \ldots, (x_n,y_n))$

p (y_{i} | a, b, σ^{2}) = N (y_{i} | b + a x_{i}, σ^{2}) .

$p(y_i|a,b,\sigma^2) = \textsf{N}(y_i|b+a\,x_i,\sigma^2).$

x_{i}

$x_i$

p (y | a, b, σ^{2}) = \prod_{i = 1}^{n} p (y_{i} | a, b, σ^{2}) .

$p(y|a,b,\sigma^2) = \prod_{i=1}^n p(y_i|a,b,\sigma^2).$

(a, b, σ^{2})

$(a,b,\sigma^2)$

p (a, b, σ^{2} | y) = \frac{p (y | a, b, σ^{2}) p (a, b, σ^{2})}{p (y)},

$\begin{equation} p(a,b,\sigma^2|y) = \frac{p(y|a,b,\sigma^2)\,p(a,b,\sigma^2)}{p(y)}, \end{equation}$

\begin{aligned} p (y) & = ∭ p (y | a, b, σ^{2}) p (a, b, σ) d σ^{2} d b d a \\ = \int (\iint p (y | a, b, σ^{2}) p (b, σ^{2}) d σ^{2} d b) p (a | b, σ^{2}) d a \\ = \int p (y | a) p (a | b, σ^{2}) d a, \end{aligned}

$\begin{equation} \begin{split} p(y) &= \iiint p(y|a,b,\sigma^2)\,p(a,b,\sigma)\,d\sigma^2\,db\,da \\ &= \int\left(\iint p(y|a,b,\sigma^2)\,p(b,\sigma^2)\,d\sigma^2\,db\right) p(a|b,\sigma^2)\,da \\ &= \int p(y|a)\,p(a|b,\sigma^2)\,da , \end{split} \end{equation}$ mana saya telah menggunakan . Perhatikan bahwa adalah kemungkinan (marjinal) untuk dan adalah syarat sebelum untuk . Jika prior untuk tidak tergantung pada , maka . Saya akan menganggap itu benar.

p (a, b, σ^{2}) = p (a | b, σ^{2}) p (b, σ^{2})

$p(a,b,\sigma^2) = p(a|b,\sigma^2)\,p(b,\sigma^2)$

p (y | a)

$p(y|a)$

a

$a$

p (a | b, σ^{2})

$p(a|b,\sigma^2)$

a

$a$

a

$a$

(b, σ^{2})

$(b,\sigma^2)$

p (a | b, σ^{2}) = p (a)

$p(a|b,\sigma^2) = p(a)$

Dengan ekspresi ini, kita sekarang dapat menulis posterior marginal untuk : kita akan mengatur ulang ungkapan ini: Karena ungkapan ini benar untuk setiap nilai , itu benar khususnya untuk : Perhatikan bahwa pembilang dalam fraksi di sisi kiri adalah kemungkinan data sesuai dengan model terbatas (yaitu, terbatas pada $a$

p (a | y) = \frac{p (y | a) p (a)}{p (y)} .

$\begin{equation} p(a|y) = \frac{p(y|a)\,p(a)}{p(y)}. \end{equation}$

\frac{p (y | a)}{p (y)} = \frac{p (a | y)}{p (a)} .

$\begin{equation} \frac{p(y|a)}{p(y)} = \frac{p(a|y)}{p(a)}. \end{equation}$

a

$a$

a = 0

$a = 0$

\frac{p (y | a = 0)}{p (y)} = \frac{p (a = 0 | y)}{p (a = 0)} .

$\begin{equation} \frac{p(y|a=0)}{p(y)} = \frac{p(a=0|y)}{p(a=0)}. \end{equation}$

a = 0

$a=0$ ). Dan, sebagaimana telah dicatat, penyebut adalah kemungkinan data menurut model yang lebih umum. Oleh karena itu, sisi kiri adalah faktor Bayes yang mendukung model terbatas relatif terhadap model yang lebih umum.

Fraksi di sebelah kanan memberi kita cara untuk mengevaluasi faktor Bayes: Dikatakan membagi kepadatan posterior dievaluasi pada dengan kepadatan sebelumnya dievaluasi pada . (By the way, "formula" yang disebut rasio kepadatan Savage-Dickey.) Sekarang jelas mengapa sebelum bijaksana untuk diperlukan. Jika kita membiarkan kepadatan sebelumnya untuk sangat tidak pasti, kepadatan sebelum akan sangat rendah di mana-mana termasuk di , tetapi kepadatan posterior di tidak akan pergi ke nol, dan akibatnya faktor Bayes akan pergi ke infinity. Dalam hal ini, "sampah masuk" menghasilkan "sampah keluar." $a=0$ $a=0$ $a$ $a$ $a =0$ $a=0$

Anda mungkin membayangkan bahwa jika Anda tidak mengikuti langkah-langkah yang telah saya uraikan, maka Anda tidak akan mengalami masalah ini, tetapi Anda akan salah. Logika yang saya sampaikan berlaku terlepas dari "algoritma" yang Anda terapkan.

Tapi langkah-langkahnya memang menyediakan algoritma yang bisa bermanfaat. Misalkan prior untuk parameter diberikan oleh "Jeffreys prior" Ini sama dengan menggunakan yang tidak patut sebelum "parameter gangguan" . Ini baik-baik saja, tapi sebelum itu tidak akan sesuai untuk untuk alasan saya dibahas di atas. Dengan ini sebelumnya, --- yang (marginal) kemungkinan untuk --- akan sebanding dengan Mahasiswa distribusi, parameter yang tergantung pada data . Ini distribusi ringkasan lengkap dari data, yang dapat dibuang. Sekarang Anda harus memilih yang tepat dan mendapat informasi sebelum

p (b, σ^{2}) \propto 1 / σ^{2} .

$p(b,\sigma^2) \propto 1/\sigma^2.$

(b, σ^{2})

$(b,\sigma^2)$

a

$a$

p (y | a)

$p(y|a)$

a

$a$

t

$t$

y

$y$

t

$t$

a

$a$ . Setelah melakukannya, Anda dapat menghitung secara numerik pada kedua sisi persamaan "Savage-Dickey".

Saya harap Anda menemukan sesuatu dalam apa yang saya katakan bermanfaat.

— mef
sumber

Hmm, ternyata saya tidak bisa meninggalkan komentar panjang atau mengeditnya terlalu lama. Saya akan memotong ke pengejaran: Bagaimana saya bisa menghitung sisi kanan? Prioritas saya adalah Saya kira setelah data itu Jadi faktor Bayes adalah rasio keduanya pada a = 0?

p (a) = \frac{1}{10 | \hat{a} | \sqrt{2 π}} e^{- \frac{(a - \hat{a})^{2}}{2 (10 | \hat{a} |^{2}}}

$p(a)=\frac{1}{10 |\hat{a}| \sqrt{2 \pi}} e^{-\frac{(a-\hat{a})^2}{2 (10 |\hat{a}|^2}}$

p (a | y) = \frac{1}{σ_{a} | \sqrt{2 π}} e^{- \frac{(a - \hat{a})^{2}}{2 σ_{a}^{2}}}

$p(a|y)=\frac{1}{\sigma_a| \sqrt{2 \pi}} e^{-\frac{(a-\hat{a})^2}{2 \sigma_a^2}}$

— PhysicsTeacher

Saya tidak mengerti sebelumnya Anda karena tampaknya melibatkan data melalui perkiraan kemungkinan maksimum.

— mef

Ya, kami bermain sedikit pura-pura di sini (ini ADA untuk sekolah menengah!). Prior nyata adalah sama kecuali bahwa nilai yang diberikan dalam literatur untuk kemiringan yang diharapkan digunakan sebagai ganti . Untuk memberikan formula bentuk tertutup yang tidak bergantung pada eksperimen eksplisit, saya berasumsi bahwa karena itu adalah prior yang luas dan tidak akan jauh dari nilai literatur, kita dapat menukar mereka tanpa mengubah angka banyak.

\hat{a}

$\hat{a}$

h a t a

$hat{a}$

— PhysicsTeacher

Saya tidak mengerti alasan untuk asumsi Anda tentang sebelumnya. Meskipun demikian jawaban atas pertanyaan dalam komentar pertama Anda adalah "ya." Saya pikir Anda akan menemukan faktor Bayes (BF) cukup sensitif terhadap pilihan varian sebelumnya. Jika Anda mengubah 10 hingga 20 (misalnya), saya menduga Anda akan mendapatkan perubahan besar dalam BF. Dan itulah yang ingin saya sampaikan.

— mef

Terima kasih banyak, mef! Saya masih tidak mengerti apakah perhitungan awal saya masuk akal, tetapi setidaknya sekarang saya memiliki titik perbandingan. Saya akan memeriksa respons terhadap perubahan faktor dari 10 menjadi 20, dan terhadap pertukaran nilai pustaka vs .

\hat{a}

$\hat{a}$

— PhysicsTeacher