Bayesian vs frequentist Interpretations of Probability

37

Bisakah seseorang memberikan ikhtisar yang baik tentang perbedaan antara Bayesian dan pendekatan frequentist terhadap probabilitas?

Dari apa yang saya mengerti:

Pandangan frequentist adalah bahwa data adalah sampel acak yang dapat diulang (variabel acak) dengan frekuensi / probabilitas tertentu (yang didefinisikan sebagai frekuensi relatif suatu peristiwa karena jumlah percobaan mendekati tak terhingga). Parameter dan probabilitas yang mendasarinya tetap konstan selama proses berulang ini dan bahwa variasi disebabkan oleh variabilitas dalam dan bukan distribusi probabilitas (yang ditetapkan untuk acara / proses tertentu). $X_n$

Pandangan bayesian adalah bahwa data diperbaiki sementara frekuensi / probabilitas untuk peristiwa tertentu dapat berubah artinya bahwa parameter distribusi berubah. Akibatnya, data yang Anda dapatkan mengubah distribusi parameter sebelumnya yang diperbarui untuk setiap set data.

Bagi saya tampaknya pendekatan yang lebih sering lebih praktis / logis karena tampaknya masuk akal bahwa peristiwa memiliki probabilitas tertentu dan bahwa variasi ada dalam sampel kami.

Selain itu, sebagian besar analisis data dari studi biasanya dilakukan dengan menggunakan pendekatan frequentist (yaitu interval kepercayaan, pengujian hipotesis dengan nilai-p dll) karena mudah dimengerti.

Saya hanya bertanya-tanya apakah ada yang bisa memberi saya ringkasan cepat interpretasi mereka tentang pendekatan bayesian vs sering termasuk statistik setara bayesian dari p-value sering dan interval kepercayaan. Selain itu, contoh spesifik di mana 1 metode lebih disukai daripada yang lain dihargai.

probability bayesian frequentist

— BYS2
sumber

1

Di beberapa tempat Anda akan diserang oleh gerombolan yang marah jika Anda mengatakan pendekatan yang sering dilakukan untuk inferensi statistik lebih praktis. (Oke, mungkin ada beberapa hiperbola dalam pernyataan itu.) Saya tidak setuju bahwa interval kepercayaan lebih mudah dipahami daripada interval probabilitas posterior. (Pokoknya, lihat jawaban saya di bawah. Saya pikir itu langsung ke inti masalah, meskipun tidak ada matematika selain mengetahui apa itu.)

1 / 2

$1/2$

— Michael Hardy

@DilipSarwate ay, saya akan mengingatnya untuk waktu berikutnya. tapi sepertinya saya mendapat beberapa jawaban bagus kali ini jadi mungkin saya akan mencoba untuk menyelesaikannya di sini: D

— BYS2

Lihat juga stats.stackexchange.com/q/173056/35989

— Tim

27

Dalam pendekatan frequentist , dinyatakan bahwa satu-satunya arti di mana probabilitas memiliki makna adalah sebagai nilai pembatas dari jumlah keberhasilan dalam serangkaian uji coba, yaitu sebagai

p = lim_{n \to \infty} \frac{k}{n}

$p = \lim_{n\to\infty} \frac{k}{n}$

di mana adalah jumlah keberhasilan dan adalah jumlah percobaan. Secara khusus, tidak masuk akal untuk mengaitkan distribusi probabilitas dengan parameter . $k$ $n$

Sebagai contoh, pertimbangkan sampel dari distribusi Bernoulli dengan parameter (yaitu mereka memiliki nilai 1 dengan probabilitas dan 0 dengan probabilitas ). Kita dapat menentukan tingkat keberhasilan sampel menjadi $X_1, \dots, X_n$ $p$ $p$ $1-p$

\hat{hal} = \frac{X_{1} + \dots + X_{n}}{n}

$\hat{p} = \frac{X_1+\cdots +X_n}{n}$

dan berbicara tentang distribusi tergantung pada nilai , tetapi tidak masuk akal untuk membalikkan pertanyaan dan mulai berbicara tentang distribusi probabilitas tergantung pada nilai observasi dari . Secara khusus, ini berarti bahwa ketika kita menghitung interval kepercayaan, kita menafsirkan ujung interval kepercayaan sebagai variabel acak, dan kita berbicara tentang "probabilitas bahwa interval tersebut memasukkan parameter yang benar", daripada "probabilitas bahwa parameter tersebut adalah di dalam interval kepercayaan ". $\hat{p}$ $p$ $p$ $\hat{p}$

Dalam pendekatan Bayesian , kami menafsirkan distribusi probabilitas sebagai mengukur ketidakpastian kami tentang dunia. Secara khusus, ini berarti bahwa kita sekarang dapat berbicara secara bermakna tentang distribusi probabilitas dari parameter, karena meskipun parameternya tetap, pengetahuan kita tentang nilai sebenarnya mungkin terbatas. Pada contoh di atas, kita dapat membalikkan distribusi probabilitas menggunakan hukum Bayes, untuk memberikan $f(\hat{p}\mid p)$

\overset{belakang}{\overset{⏞}{f (hal ∣ \hat{hal})}} = \underset{rasio kemungkinan}{\underset{⏟}{\frac{f (\hat{hal} ∣ hal)}{f (\hat{hal})}}} \overset{sebelumnya}{\overset{⏞}{f (hal)}}

$\overbrace{f(p\mid \hat{p})}^\text{posterior} = \underbrace{\frac{f(\hat{p}\mid p)}{f(\hat{p})}}_\text{likelihood ratio} \overbrace{f(p)}^\text{prior}$

Masalahnya adalah kita harus memperkenalkan distribusi sebelumnya ke dalam analisis kita - ini mencerminkan kepercayaan kita tentang nilai sebelum melihat nilai aktual . Peran prior sering dikritik dalam pendekatan frequentist, karena dikemukakan bahwa itu memperkenalkan subjektivitas ke dalam dunia yang lebih keras dan objek kemungkinan. $p$ $X_i$

Dalam pendekatan Bayesian kita tidak lagi berbicara tentang interval kepercayaan, tetapi alih-alih interval yang kredibel, yang memiliki interpretasi yang lebih alami - dengan interval kredibel 95%, kita dapat menetapkan probabilitas 95% bahwa parameter berada di dalam interval.

— Chris Taylor
sumber

6

Di sisi lain, satu kritik terhadap pendekatan frequentist adalah bahwa itu tidak sesuai dengan cara orang berpikir tentang probabilitas. Pertimbangkan bagaimana orang berbicara tentang "probabilitas" peristiwa sekali saja seperti kepunahan dinosaurus, atau "probabilitas" "kepastian" seperti matahari terbit besok ...

14

Mungkin juga baik untuk menyebutkan bahwa kesenjangan antara pendekatan frequentist dan Bayesian tidak hampir sama besar pada tingkat praktis: setiap metode frequentist yang menghasilkan hasil yang berguna dan konsisten pada umumnya dapat diberikan interpretasi Bayesian, dan sebaliknya . Secara khusus, menyusun kembali perhitungan yang sering dalam istilah Bayesian biasanya menghasilkan aturan untuk menghitung posterior yang diberikan beberapa spesifik sebelumnya . Orang kemudian dapat bertanya, "Apakah itu sebelum benar-benar masuk akal?"

— Ilmari Karonen

Terima kasih atas jawaban ini, ini sesuai dengan pemahaman umum saya. Namun, saya bertanya-tanya apakah Anda dapat mengklarifikasi satu hal, bagaimana Anda menemukan probabilitas tingkat keberhasilan data / sampel (f (p-hat)) dalam formula hukum Baye? Saya telah membaca beberapa contoh yang berhasil dan saya umumnya mengerti bagaimana menurunkan f (p-hat | p) dan f (p) sebelumnya, tetapi f (p-hat) sejauh ini menghindari saya. Jika Anda memiliki beberapa tautan ke beberapa sumber daya maka itu akan hebat: D. Terima kasih!

— BYS2

@IlmariKaronen. Ok jadi apakah Anda mengatakan bahwa jika saya memiliki penelitian yang menghasilkan hasil tertentu dinyatakan sebagai interval kepercayaan, saya bisa menyusun kembali data dan melakukan analisis bayesian sebagai gantinya? dan hasilnya akan lebih atau kurang konsisten?

— BYS2

Apa yang dikatakan @Karonen tidak sepenuhnya akurat. Dua teknik frequentist yang paling umum adalah estimasi titik (biasanya estimasi kemungkinan maksimum) dan tes hipotesis, dan tidak ada yang benar-benar dapat diberikan interpretasi Bayesian alami.

— Jules

20

Anda benar tentang interpretasi Anda tentang probabilitas Frequentist: keacakan dalam pengaturan ini hanya karena pengambilan sampel yang tidak lengkap. Dari sudut pandang Bayesian, probabilitas adalah "subyektif", karena hal itu mencerminkan ketidakpastian agen tentang dunia. Tidak tepat untuk mengatakan bahwa parameter distribusi "berubah". Karena kami tidak memiliki informasi lengkap tentang parameter, ketidakpastian kami tentang mereka berubah saat kami mengumpulkan informasi lebih lanjut.

Kedua interpretasi berguna dalam aplikasi, dan mana yang lebih berguna tergantung pada situasinya. Anda dapat melihat blog Andrew Gelman untuk mendapatkan ide tentang aplikasi Bayesian. Dalam banyak situasi yang oleh orang Bayesian disebut "priors". Frequentists menyebutnya "regularisasi", dan dengan demikian (dari sudut pandang saya) kegembiraan dapat meninggalkan ruangan lebih cepat. Faktanya, menurut teorema Bernstein-von Mises, inferensi Bayesian dan Frequentist sebenarnya setara secara asimptot di bawah asumsi yang agak lemah (walaupun teorema tersebut gagal untuk distribusi dimensi tak terbatas). Anda dapat menemukan banyak referensi tentang ini di sini .

Karena Anda meminta interpretasi: Saya pikir sudut pandang Frequentist sangat masuk akal ketika memodelkan eksperimen ilmiah seperti yang dirancang untuk dilakukan. Untuk beberapa aplikasi dalam pembelajaran mesin atau untuk pemodelan penalaran induktif (atau pembelajaran), probabilitas Bayesian lebih masuk akal bagi saya. Ada banyak situasi di mana memodelkan suatu peristiwa dengan probabilitas tetap, "benar" tampaknya tidak masuk akal.

Untuk contoh mainan yang akan kembali ke Laplace , pertimbangkan kemungkinan matahari terbit besok. Dari perspektif Frequentist, kita harus menempatkan sesuatu seperti banyak alam semesta tanpa batas untuk mendefinisikan probabilitas. Sebagai orang Bayesian, hanya ada satu alam semesta (atau setidaknya, tidak perlu banyak). Ketidakpastian kita tentang terbitnya matahari dipadamkan oleh keyakinan awal kita yang sangat, sangat kuat bahwa matahari akan terbit lagi besok.

— ya
sumber

17

Interpretasi Bayes tentang probabilitas adalah interpretasi derajat kepercayaan.

$1/2$

— Michael Hardy
sumber

2

Mungkin tidak ada tempat yang lebih baik untuk merenungkan keterbatasan dari pendekatan frequentist yang lebih sempit vs generalitas dari pendekatan Bayesian (ekstensi logika) daripada kertas klasik oleh RT Cox.

— gwr

2

Cox juga menulis buku tentang ini, berjudul Algebra of Probable Inference , yang diterbitkan oleh Johns Hopkins. @ gwr

$\qquad$

— Michael Hardy

1

Ian Hacking mengatakannya dengan baik dalam bukunya "An Introduction to Probability and Inductive Logic". Dia mengatakan: "Bayesian mampu melampirkan probabilitas pribadi, atau tingkat kepercayaan, ke proposisi individu. Dogmatis frekuensi garis keras berpikir bahwa probabilitas hanya dapat dilampirkan pada serangkaian peristiwa."

— Buttons840

9

Chris memberikan penjelasan sederhana yang bagus yang membedakan dengan baik kedua pendekatan terhadap probabilitas. Tetapi teori probabilitas yang sering muncul lebih dari sekadar melihat proporsi keberhasilan jangka panjang. Kami juga mempertimbangkan data yang diambil secara acak dari distribusi dan memperkirakan parameter distribusi seperti rata-rata dan varians dengan mengambil jenis rata-rata tertentu dari data (misalnya untuk rata-rata itu adalah rata-rata aritmatika pengamatan. Teori Frequentist mengaitkan probabilitas dengan estimasi yang disebut distribusi sampling.

Dalam teori frekuensi kita dapat menunjukkan untuk parameter seperti rata-rata yang diambil dengan rata-rata dari sampel bahwa estimasi akan konvergen ke parameter sebenarnya. Distribusi sampling digunakan untuk menggambarkan seberapa dekat perkiraan dengan parameter untuk setiap ukuran sampel tetap n. Tutup didefinisikan oleh ukuran akurasi (misalnya mean square error).

Pada Chris menunjukkan parameter apa pun seperti rata-rata Bayesian menempelkan distribusi probabilitas sebelumnya. Kemudian diberikan data aturan Bayes yang digunakan untuk menghitung distribusi posterior untuk parameter. Untuk Bayesian, semua kesimpulan tentang parameter didasarkan pada distribusi posterior ini.

Frequentists membangun interval kepercayaan yang merupakan interval dari nilai yang masuk akal untuk parameter. Konstruksi mereka didasarkan pada probabilitas sering bahwa jika proses yang digunakan untuk menghasilkan interval diulang berkali-kali untuk sampel independen proporsi interval yang sebenarnya akan mencakup nilai sebenarnya dari parameter akan setidaknya beberapa tingkat kepercayaan yang ditentukan sebelumnya (misalnya 95% ).

Bayesians menggunakan distribusi a posteriori untuk parameter untuk membangun daerah yang kredibel. Ini hanyalah daerah dalam ruang parameter di mana distribusi posterior diintegrasikan untuk mendapatkan probabilitas yang ditentukan sebelumnya (misalnya 0,95). Wilayah yang dapat dipercaya ditafsirkan oleh orang Bayesian sebagai daerah yang memiliki probabilitas tinggi (misalnya yang ditentukan sebelumnya 0,95) termasuk memasukkan nilai sebenarnya dari parameter.

— Michael R. Chernick
sumber

1

Wilayah yang dapat dipercaya ditafsirkan oleh orang Bayesian sebagai daerah yang memiliki probabilitas tinggi (misalnya yang ditentukan sebelumnya 0,95) termasuk memasukkan nilai sebenarnya dari parameter . Bagaimana ini mungkin jika parameternya adalah variabel acak?

@Prastrastator Oke mungkin Anda lebih suka bagi saya untuk hanya mengatakan bahwa itu mencakup proporsi yang sudah ditentukan sebelumnya dari distribusi parameter. Tetapi jika X adalah variabel acak dengan distribusi f dan kami membangun wilayah yang kredibel untuknya, maka wilayah tersebut memang mewakili probabilitas bahwa realisasi variabel acak akan terletak di wilayah tersebut.

— Michael R. Chernick

Saya setuju dengan penjelasan ini. Penting untuk memperjelas bahwa realisasi variabel acak bukan nilai sebenarnya dari parameter.

@Prastrastator itu poin menarik yang Anda angkat. Namun, pemahaman saya tentang probabilitas bayesian adalah bahwa banyak orang Bayesian setuju dengan ahli statistik klasik bahwa ada nilai TRUE tunggal dari parameter yang dipermasalahkan (tetap tetapi tidak diketahui). Ini adalah ketidakpastian tentang parameter ini yang didistribusikan karena keadaan tidak sempurna pengetahuan kita. Jadi jika Anda memikirkannya dengan cara ini, maka pernyataan awal Michael Chernick valid, bukan?

— BYS2

2

θ_{0} = 1

$\theta_0=1$

(1, 100)

$(1,100)$

2

Dari sudut pandang "dunia nyata", saya menemukan satu perbedaan besar antara "solusi" yang sering dan klasik atau Bayesian yang berlaku untuk setidaknya tiga skenario utama. Perbedaan dalam memilih metodologi tergantung pada apakah Anda memerlukan solusi yang dipengaruhi oleh probabilitas populasi, atau yang dipengaruhi oleh probabilitas individu. Contoh di bawah ini:

Jika ada probabilitas 5% yang diketahui bahwa pria di atas 40 akan meninggal pada tahun tertentu dan memerlukan pembayaran asuransi jiwa, sebuah perusahaan asuransi dapat menggunakan persentase POPULASI 5% untuk memperkirakan biayanya, tetapi untuk mengatakan bahwa setiap individu pria di atas 40 tahun hanya memiliki peluang 5% untuk mati ... tidak ada artinya ... Karena 5% memiliki probabilitas 100% untuk meninggal - yang merupakan pendekatan yang sering dilakukan. Pada tingkat individu peristiwa itu terjadi (probabilitas 100%) atau tidak (probabilitas 0%). Namun, berdasarkan informasi yang terbatas ini, tidak mungkin untuk memprediksi individu yang memiliki 100% kemungkinan meninggal, dan 5 % probabilitas populasi "rata-rata" tidak berguna di tingkat individu.
Argumen di atas berlaku juga untuk kebakaran di gedung-gedung, oleh karena itu alat penyiram diperlukan di semua bangunan dalam suatu populasi.
Kedua argumen di atas berlaku juga untuk pelanggaran sistem informasi, kerusakan, atau "peretasan". Persentase populasi tidak berguna sehingga semua sistem harus dilindungi.

— James J Finn
sumber

2

Saya tidak mengenali pendekatan yang sering dalam salah satu dari tiga contoh ini. Mereka semua tampaknya bergantung pada konsep probabilitas retrospektif - dan karena itu tidak berguna - yang tidak digunakan dalam model klasik. Misalnya, pernyataan bahwa "peristiwa itu terjadi ... atau tidak" adalah sepele tetapi tidak terkait dengan probabilitas.

— whuber

0

Pilihan interpretasi tergantung pada pertanyaan. Jika Anda ingin mengetahui peluang dalam permainan peluang, interpretasi klasik akan menyelesaikan masalah Anda, tetapi data statistik tidak berguna karena dadu yang adil tidak memiliki memori.

Jika Anda ingin memprediksi peristiwa masa depan berdasarkan pengalaman masa lalu, interpretasi yang sering terjadi adalah benar dan memadai.

Jika Anda tidak tahu apakah suatu peristiwa di masa lalu telah terjadi, dan ingin menilai probabilitas itu terjadi, Anda harus mengambil keyakinan Anda sebelumnya, yaitu apa yang sudah Anda ketahui tentang peluang peristiwa itu terjadi dan memperbarui keyakinan Anda ketika Anda memperoleh data baru.

Karena pertanyaannya adalah tentang tingkat kepercayaan, dan setiap orang mungkin memiliki ide yang berbeda tentang prior, interpretasinya tentu subyektif, alias Bayesian.

— Aviel Roy-Shapira
sumber