Contoh dunia nyata sederhana untuk mengajar statistik Bayesian?


10

Saya ingin menemukan beberapa "contoh dunia nyata" untuk mengajarkan statistik Bayesian. Statistik Bayesian memungkinkan seseorang untuk secara resmi memasukkan pengetahuan sebelumnya ke dalam analisis. Saya ingin memberi siswa beberapa contoh dunia nyata sederhana dari para peneliti yang memasukkan pengetahuan sebelumnya ke dalam analisis mereka sehingga siswa dapat lebih memahami motivasi mengapa seseorang mungkin ingin menggunakan statistik Bayesian di tempat pertama.

Apakah Anda mengetahui adanya contoh-contoh dunia nyata yang sederhana seperti memperkirakan rata-rata populasi, proporsi, regresi, dll. Di mana para peneliti secara formal memasukkan informasi sebelumnya? Saya menyadari orang Bayesian dapat menggunakan prior "non-informatif", tetapi saya sangat tertarik pada contoh nyata di mana prior prior (misalnya informasi sebelumnya nyata) digunakan.


Saya pikir IQ adalah contoh yang cukup bagus.
hejseb

Bukan semata-mata jawaban tetapi ketika Anda melempar koin tiga kali dan kepala muncul dua kali maka tidak ada siswa yang akan percaya, kepala itu dua kali lebih mungkin daripada ekor. Itu cukup meyakinkan meskipun tentu saja bukan penelitian nyata.
Bernhard

1
Anda dapat memeriksa jawaban ini, benar-benar ditulis oleh Anda: stats.stackexchange.com/a/134385/61496
Yair Daon

Apakah Anda mungkin mengacaukan Peraturan Bayes, yang dapat diterapkan dalam probabilitas / estimasi frekuensi, dan statistik Bayesian di mana "probabilitas" adalah ringkasan kepercayaan?
AdamO

Jawaban:


6

Teori pencarian Bayesian adalah aplikasi dunia nyata yang menarik dari statistik Bayesian yang telah diterapkan berkali-kali untuk mencari kapal yang hilang di laut. Untuk memulai, peta dibagi ke dalam kotak. Setiap kotak diberi probabilitas sebelumnya untuk memuat kapal yang hilang, berdasarkan posisi terakhir yang diketahui, pos, waktu hilang, arus, dll. Selain itu, setiap kotak diberi probabilitas bersyarat untuk menemukan kapal jika itu benar-benar di kotak itu, berdasarkan hal-hal seperti kedalaman air. Distribusi ini digabungkan untuk memprioritaskan kuadrat peta yang memiliki kemungkinan tertinggi untuk menghasilkan hasil positif - itu tidak selalu merupakan tempat yang paling mungkin untuk kapal, tetapi tempat yang paling mungkin untuk benar-benar menemukan kapal.


1
Bagus, ini adalah jenis aplikasi yang dijelaskan dalam buku menghibur The Theory That Would Not Die: Aturan Bayes 'Memecahkan Kode Enigma, Memburu Kapal Selam Rusia, dan Memenangkan Kemenangan dari dua abad kontroversi . Juga, Turing menggunakan alasan semacam ini untuk memecahkan teka-teki.
jpmuc

Probabilistik tetapi apakah itu Bayesian?
Andrew

5

Saya pikir memperkirakan ukuran produksi atau populasi dari nomor seri menarik jika contoh penjelasan tradisional. Di sini Anda mencoba maksimum distribusi seragam diskrit. Tergantung pada pilihan Anda sebelumnya maka kemungkinan maksimum dan perkiraan Bayesian akan berbeda secara transparan.

Mungkin contoh yang paling terkenal adalah memperkirakan tingkat produksi tank Jerman selama Perang Dunia kedua dari band nomor seri tank dan kode pabrikan yang dilakukan dalam pengaturan frequentist oleh (Ruggles dan Brodie, 1947). Analisis alternatif dari sudut pandang Bayesian dengan prior informatif telah dilakukan oleh (Downey, 2013), dan dengan prior uninformative yang tidak tepat oleh (Höhle dan Held, 2004). Karya oleh (Höhle dan Held, 2004) juga mengandung lebih banyak referensi untuk pengobatan sebelumnya dalam literatur dan ada juga lebih banyak diskusi tentang masalah ini di situs ini.

Sumber:

Bab 3, Downey, Allen. Think Bayes: Bayesian Statistics in Python. "O'Reilly Media, Inc.", 2013.

Wikipedia

Ruggles, R .; Brodie, H. (1947). "Suatu Pendekatan Empiris untuk Kecerdasan Ekonomi dalam Perang Dunia II". Jurnal Asosiasi Statistik Amerika. 42 (237): 72.

Höhle, Michael, dan Leonhard Held. Estimasi Bayesian tentang ukuran populasi. 499. Makalah diskusi // Sonderforschungsbereich 386 der Ludwig-Maximilians-Universität München, 2006.


3

Ada kisah yang menyenangkan dalam Statistik Cressie & Wickle untuk Data Spatio-Temporal , Wiley, tentang pencarian (bayesian) USS Scorpion, kapal selam yang hilang pada tahun 1968. Kami menceritakan kisah ini kepada siswa kami dan meminta mereka untuk melakukan ( disederhanakan) pencarian menggunakan simulator .

Contoh serupa dapat dibangun di sekitar kisah MH370 penerbangan yang hilang; Anda mungkin ingin melihat Davey et al., Metode Bayesian dalam Pencarian untuk MH370 , Springer-Verlag.


1

θ

y1,...,yny=(y1,...,yn)T

y1,...,yn|θN(θ,σ2)

Atau lebih sering ditulis oleh Bayesian,

y1,...,yn|θN(θ,τ)

τ=1/σ2τ

ysaya

f(ysaya|θ,τ)=(τ2π)×exhal(-τ(ysaya-θ)2/2)

θ^=y¯

θ

θN(Sebuah,1/b)

Distribusi posterior yang kita peroleh dari model data Normal-Normal (setelah banyak aljabar) ini adalah distribusi Normal lainnya.

θ|yN(bb+nτSebuah+nτb+nτy¯,1b+nτ)

b+nτSebuahy¯bb+nτSebuah+nτb+nτy¯

θ|yθθ

Yang mengatakan, Anda sekarang dapat menggunakan contoh buku teks data normal untuk menggambarkan hal ini. Saya akan menggunakan kumpulan data airqualitydalam R. Pertimbangkan masalah memperkirakan kecepatan angin rata-rata (MPH).

> ## New York Air Quality Measurements
> 
> help("airquality")
> 
> ## Estimating average wind speeds
> 
> wind = airquality$Wind
> hist(wind, col = "gray", border = "white", xlab = "Wind Speed (MPH)")
>

masukkan deskripsi gambar di sini

> n = length(wind)
> ybar = mean(wind)
> ybar
[1] 9.957516 ## "frequentist" estimate
> tau = 1/sd(wind)
> 
> 
> ## but based on some research, you felt avgerage wind speeds were closer to 12 mph
> ## but probably no greater than 15,
> ## then a potential prior would be N(12, 2)
> 
> a = 12
> b = 2
> 
> ## Your posterior would be N((1/))
> 
> postmean = 1/(1 + n*tau) * a + n*tau/(1 + n*tau) * ybar
> postsd = 1/(1 + n*tau)
> 
> set.seed(123)
> posterior_sample = rnorm(n = 10000, mean = postmean, sd = postsd)
> hist(posterior_sample, col = "gray", border = "white", xlab = "Wind Speed (MPH)")
> abline(v = median(posterior_sample))
> abline(v = ybar, lty = 3)
> 

masukkan deskripsi gambar di sini

> median(posterior_sample)
[1] 10.00324
> quantile(x = posterior_sample, probs = c(0.025, 0.975)) ## confidence intervals
2.5%     97.5% 
9.958984 10.047404 

Dalam analisis ini, peneliti (Anda) dapat mengatakan bahwa data yang diberikan + informasi sebelumnya, perkiraan angin rata-rata Anda, menggunakan persentil ke-50, kecepatannya harus 10.00324, lebih besar daripada hanya menggunakan rata-rata dari data tersebut. Anda juga mendapatkan distribusi penuh, dari mana Anda dapat mengekstrak interval yang kredibel 95% menggunakan kuantil 2,5 dan 97,5.

Di bawah ini saya sertakan dua referensi, saya sangat merekomendasikan membaca makalah pendek Casella. Ini secara khusus ditujukan pada metode Bayes empiris, tetapi menjelaskan metodologi Bayesian umum untuk model Normal.

Referensi:

  1. Casella, G. (1985). Pengantar Analisis Data Teluk Empiris. The American Statistician, 39 (2), 83-87.

  2. Gelman, A. (2004). Analisis data Bayesian (edisi kedua, Teks dalam ilmu statistik). Boca Raton, Fla .: Chapman & Hall / CRC.


1

Suatu area penelitian di mana saya percaya metode Bayesian mutlak diperlukan adalah desain yang optimal.

xβx

xβββx

  • n=0β^

  • β^

  • β=1β^=5xβ=5x

  • β

xx

xβ

βx

x


1

Saya memikirkan pertanyaan ini akhir-akhir ini, dan saya pikir saya memiliki contoh di mana bayesian masuk akal, dengan menggunakan probabilitas sebelumnya: rasio kemungkinan uji klinis.

Contohnya bisa seperti ini: validitas dipslide urin dalam kondisi praktik sehari-hari (Family Practice 2003; 20: 410-2). Idenya adalah untuk melihat apa hasil positif dari dipslide urin menyiratkan diagnosis infeksi urin. Rasio kemungkinan hasil positif adalah:

L.R(+)=test+|H+test+|H-=Senssayabsayalsayaty1-shalecsayafsayacsayaty
H+H-

HAIR(+|test+)=L.R(+)×HAIR(+)
HAIRHAIR(+|test+)HAIR(+)

L.R(+)=12.2L.R(-)=0,29

hal+=2/3hal+|test+=0,96hal+|test-=0,37

Di sini tesnya bagus untuk mendeteksi infeksi, tetapi tidak bagus untuk membuang infeksi.

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.