Pengantar statistik frequentist untuk Bayesians [ditutup]

Saya seorang Bayesian yang berpikiran sederhana yang merasa nyaman di dunia Bayes yang nyaman.

Namun, karena kekuatan jahat di luar kendali saya, saya sekarang harus melakukan kursus pascasarjana pengantar tentang dunia yang eksotis dan aneh dari statistik sering. Beberapa konsep ini tampak sangat aneh bagi saya, dan guru saya tidak berpengalaman dalam Bayes, jadi saya pikir saya akan mendapatkan bantuan di internet dari mereka yang mengerti keduanya.

Bagaimana Anda menjelaskan konsep-konsep yang berbeda dalam statistik frequentist kepada seorang Bayesian yang merasa bahwa frequentism aneh dan tidak nyaman ?

Sebagai contoh, beberapa hal yang sudah saya mengerti:

Pengukur kemungkinan maksimum sama dengan estimator posterior maksimum , jika datar. $\text{argmax}_\theta \;p(D|\theta)$ $\text{argmax}_\theta \;p(\theta |D)$ $p(\theta)$
(tidak sepenuhnya yakin tentang yang satu ini). Jika penaksir tertentu adalah statistik yang cukup untuk parameter , dan datar, maka , yaitu distribusi sampling sama dengan fungsi kemungkinan, dan oleh karena itu sama dengan posterior dari parameter yang diberikan flat sebelumnya. $\hat \theta$ $\theta$ $p(\theta)$ $p(\hat \theta|\theta)=c_1\cdot p(D|\theta)=c_1\cdot c_2\cdot p(\theta|D)$

Itu adalah contoh dari menjelaskan konsep-konsep yang sering kepada seseorang yang mengerti konsep Bayesian.

Bagaimana Anda akan menjelaskan konsep sentral lainnya dari statistik frequentist dalam pengertian yang dapat dipahami oleh Bayesian?

Secara khusus, saya tertarik dengan pertanyaan berikut:

Apa peran Mean Square Error? Bagaimana hubungannya dengan fungsi kerugian Bayesian?
Bagaimana kriteria "ketidakberpihakan" berhubungan dengan kriteria Bayesian? Saya tahu bahwa seorang Bayesian tidak akan menuntut penaksirnya tidak bias, tetapi pada saat yang sama, seorang Bayesian mungkin akan setuju bahwa penduga sering tidak bias umumnya lebih diinginkan daripada yang sering bias (meskipun ia akan menganggap keduanya lebih rendah daripada penaksir Bayesian). Jadi bagaimana seorang Bayesian memahami ketidakberpihakan?
Jika kita memiliki prior priat, apakah interval kepercayaan yang sering terjadi bertepatan dengan yang Bayesian?
Apa atas nama Laplace yang terjadi dengan tes spesifikasi seperti uji ? Apakah ini beberapa kasus khusus dari pembaruan Bayesian pada distribusi ruang model? $F$

Lebih umum:

Apakah ada sumber daya yang menjelaskan seringnya orang Bayesia? Sebagian besar buku berjalan sebaliknya: mereka menjelaskan Bayesianisme kepada orang-orang yang berpengalaman dalam statistik sering.

ps. Saya telah melihat, dan sementara ada banyak pertanyaan tentang perbedaan antara Bayesian dan Frequentism, tidak ada yang secara eksplisit menjelaskan Frequentism dari perspektif seorang Bayesian.

Pertanyaan ini terkait, tetapi tidak secara khusus menjelaskan konsep Frequentist kepada seorang Bayesian (lebih lanjut tentang membenarkan pemikiran frequentist secara umum).

Juga, maksud saya bukan untuk menampar seringisme. Saya benar-benar ingin memahaminya dengan lebih baik

bayesian references frequentist

— pengguna56834
sumber

Ini mungkin pertanyaan yang valid tetapi kedengarannya terlalu luas di formulir ini, karena Anda tampaknya meminta kami menerjemahkan metode yang mungkin sering ada ke dalam bentuk Bayesian - orang dapat menulis buku tentang topik ini! Sebagian besar buku pegangan Bayesian pengantar (misalnya Kruschke) membahas topik-topik tersebut karena ditujukan untuk sering. Selain itu, Anda mungkin sudah menggunakan banyak alat yang sering digunakan (misalnya untuk mendiagnosis rantai MCMC Anda). Beberapa topik yang Anda sebutkan tidak murni Bayesian (fungsi kerugian). Bisakah Anda mencoba mengedit pertanyaan Anda untuk membuatnya lebih spesifik?

— Tim

Saya bersimpati dan menghargai pertanyaan itu. Selain literatur, jika Anda tertarik dengan wawasan dari komunitas tentang pertanyaan spesifik, saya sarankan Anda mencoba untuk berpisah. Banyak dari mereka terdengar sangat menarik. Saya harus mengakui bahwa saya telah mengajukan beberapa pertanyaan pada diri saya sendiri dengan kesuksesan yang beragam.

— Benoit Sanchez

Pertanyaan ini membuat saya ngeri dan berpikir pendidikan Statistik rusak. Bagaimana seseorang berhasil melewati Statistik dasar tanpa gagasan bias membingungkan. Demikian pula fakta bahwa seorang siswa menemukan pendidiknya tidak " berpengalaman di Bayes " sehingga mereka tidak dapat menjelaskan "Statistik Frequentist" secara memadai untuk "Bayesian" adalah saya tidak tahu ... canggung ? (Saya tidak melakukan downvote atau apa pun, saya pikir baik jika OP bertanya dan jawaban TI saya di bawah ini sangat masuk akal (+1) tetapi sungguh ... pertanyaan itu membuat saya tidak nyaman tentang sesuatu yang secara fundamental salah dalam konteks ini.)

— usεr11852

Anda tidak akan benar-benar memahami panjat tebing jika Anda memaksakan diri untuk melihatnya seperti berenang vertikal.

— David Ernst

Ambil t-test sederhana, itu tidak menghitung posterior karena secara eksplisit tidak ingin memilih yang sebelumnya. Bagaimana Anda akan menemukan setara Bayesian untuk menghindari Bayes? Dengan MLE Anda telah menemukan satu teknik di mana Anda akan dengan mudah mengidentifikasi setara Bayesian karena ini pada dasarnya sudah merupakan teknik Bayesian di semua kecuali nama.

— David Ernst

Jawaban:

Sebenarnya banyak dari hal-hal yang disebutkan oleh Anda sudah dibahas oleh buku pegangan Bayesian utama. Dalam banyak kasus, buku-buku pegangan itu ditulis untuk para frequentist melalui pelatihan, sehingga mereka membahas banyak kesamaan dan mencoba menerjemahkan metode-metode frequentist ke tanah Bayesian. Salah satu contoh adalah buku Analisis Data Doing Bayesian oleh John K. Kruschke atau makalahnya yang menerjemahkan $t$ -menguji tanah Bayesian. Ada juga psikolog lain, Eric-Jan Wagenmakers yang bersama timnya berbicara banyak tentang menerjemahkan konsep-konsep yang sering terjadi ke dalam Bayesian. Konsep keputusan-teoretis seperti fungsi kerugian, ketidakbiasaan, dll. Dibahas dalam buku The Bayesian Choice oleh Christian P. Robert.

Terlebih lagi, beberapa konsep yang Anda sebutkan tidak terlalu Bayesian. Sebagai contoh, fungsi kerugian adalah konsep umum dan hanya jika Anda menggabungkannya dengan distribusi sebelumnya Anda mendapatkan risiko Bayes.

Perlu juga disebutkan bahwa bahkan jika Anda menyatakan Bayesian sendiri, maka Anda mungkin sudah menggunakan banyak metode yang sering. Misalnya, jika Anda menggunakan MCMC untuk estimasi dan kemudian menghitung rata-rata rantai MCMC sebagai estimasi titik Anda, maka Anda menggunakan estimator frequentist, karena Anda tidak menggunakan model Bayesian dan prior untuk mendapatkan estimasi rata-rata MCMC rantai.

Akhirnya, beberapa konsep dan alat yang sering digunakan tidak mudah diterjemahkan ke pengaturan Bayesian, atau "padanan" yang diusulkan lebih merupakan bukti konsep, maka sesuatu yang akan Anda gunakan dalam kehidupan nyata. Dalam banyak kasus pendekatannya sangat berbeda dan mencari persamaan adalah pemborosan waktu.

— Tim
sumber

(+1): poin yang sangat bagus!

— Xi'an

Anda dapat menemukan blog ini menarik: errorstatistics.com

— kjetil b halvorsen

(tidak sepenuhnya yakin tentang yang satu ini). Jika penduga tertentu adalah statistik yang cukup untuk parameter , dan datar, maka , yaitu distribusi sampling sama dengan fungsi kemungkinan, dan oleh karena itu sama dengan posterior dari parameter yang diberikan flat sebelumnya. $\hat θ̂$ $θ$ $p(θ)$ $p(\hat θ̂ |θ)=p(D|θ)=c⋅p(θ|D)$

Ini salah:

$p(D|θ)=p(\hat θ̂ |θ)\times p(D|\hat θ)$ ketika adalah statistik yang cukup $\hat θ$
$p(D|θ)=c⋅p(θ|D)$ salah ketika dianggap sebagai fungsi , dan bila dianggap sebagai fungsi (kecuali seseorang menggunakan flat sebelumnya) $D$ $θ$
hanya apakah posterior berdasarkan sama dengan posterior berdasarkan dalam konteks ini. $\hat θ$ $D$

Selain itu, kecukupan tidak ada hubungannya dengan seringnya versus Bayesianisme, meskipun ada gagasan kecukupan khusus Bayesian. Seperti misalnya dalam perbandingan model .

Bayesian mungkin akan setuju bahwa estimator frequentist yang tidak bias umumnya lebih diinginkan daripada yang frequentist bias

Masalah dengan bagian dari pertanyaan ini adalah bahwa penaksir Bayesian adalah penaksir yang sering juga karena mereka memenuhi sifat-sifat sering seperti penerimaan atau kadang-kadang minimaxity. Seperti yang dibahas dalam entri CV baru - baru ini , estimasi Bayes di bawah kuadrat kesalahan kerugian tidak bisa tidak memihak . Dan tidak ada alasan selain menggunakan fungsi kerugian khusus untuk mendukung ketidakberpihakan: meminimalkan kehilangan posterior adalah semua-inklusif dan jika memaksakan ketidakberpihakan menghasilkan kerugian yang lebih tinggi itu tidak harus dipertimbangkan. (Poin terakhir adalah bahwa ada sangat sedikit fungsi dari parameter yang memungkinkan untuk penduga yang tidak bias.)

— Xi'an
sumber

Sekadar memperjelas, poin itu bukanlah upaya untuk menghubungkan konsep kecukupan dengan Bayesianisme, tetapi untuk menghubungkan konsep distribusi sampel ke distribusi posterior. Konsep kecukupan dalam frequentism dan bayesianism adalah setara, yang dapat dilihat dengan hanya menerapkan aturan bayes. Tapi saya akan mempelajari posting Anda dan mencoba memahami ini dengan lebih baik.

— user56834

Tampak bagi saya seolah-olah Anda sedang mempertimbangkan sebuah dunia yang sering dikunjungi orang Bayesian. Itu tidak banyak bernuansa. Seperti jika Anda harus menjadi yang satu atau yang lain, atau seolah-olah metode yang diterapkan ditentukan oleh beberapa kepercayaan pribadi (daripada kenyamanan dan masalah spesifik dan informasi yang ada). Saya percaya bahwa ini adalah kesalahpahaman berdasarkan tren saat ini dalam menyebut diri sering atau Bayesian, dan juga banyak bahasa statistik mungkin membingungkan. Cobalah untuk meminta sekelompok ahli statistik menjelaskan nilai-p atau interval kepercayaan.

Beberapa karya klasik dapat membantu Anda memahami kesimpulan yang sering terjadi. Karya-karya klasik berisi prinsip-prinsip dasar, dekat dengan panasnya diskusi di antara para pendukung, dan memberikan latar belakang motivasi (praktis) dan relevansi pada waktu itu.

juga, karya-karya klasik ini pada metode frequentist, ditulis pada masa ketika kebanyakan orang bekerja dengan prinsip-prinsip Bayesian dan perhitungan matematis probabilitas (perhatikan bahwa statistik tidak selalu seolah-olah Anda sedang mengerjakan soal matematika tipikal dengan probabilitas, probabilitas mungkin sangat tidak jelas).

Probabilitas frekuensi bukan probabilitas terbalik

'Probabilitas terbalik' Fisher 1930

Anda membuat gagasan kemungkinan sebagai ekspresi Bayesian dengan flat sebelumnya

Namun,

sementara matematika bertepatan (ketika ditafsirkan secara salah, karena Anda mungkin mendapatkan P (x | a) = P (a | x), hingga konstan, tetapi mereka bukan istilah yang sama) konstruksi dan makna berbeda.
Kemungkinan tidak dimaksudkan untuk menjadi 'probabilitas Bayesian berdasarkan datar, atau seragam, priors'. Kemungkinan bahkan bukan probabilitas dan tidak mengikuti aturan distribusi probabilitas (misalnya Anda tidak dapat menjumlahkan kemungkinan untuk peristiwa yang berbeda, dan integral tidak sama dengan satu), itu hanya ketika Anda mengalikannya dengan flat sebelumnya, bahwa itu menjadi probabilitas, tetapi kemudian maknanya telah berubah juga.

Beberapa kutipan menarik dari 'probabilitas terbalik' 1930 Fisher.

Metode Bayesian dan sering adalah alat yang berbeda :

... ada dua ukuran berbeda dari kepercayaan rasional yang sesuai untuk kasus yang berbeda. Mengetahui populasi kita dapat mengekspresikan pengetahuan kita yang tidak lengkap tentang, atau harapan, sampel dalam hal probabilitas; mengetahui sampel kita dapat mengekspresikan pengetahuan kita yang tidak lengkap dari populasi dalam hal kemungkinan. Kita dapat menyatakan kemungkinan relatif bahwa korelasi yang tidak diketahui adalah + 0,6, tetapi bukan probabilitas bahwa itu terletak pada kisaran 0,595-0,605.

Perhatikan bahwa ada adalah pernyataan probabilitas tertentu, yang metode frequentist menyediakan.

Dengan membuat tabel nilai yang sesuai, kita dapat mengetahui segera setelah T dihitung berapa nilai fidusia 5 persen, nilai , dan bahwa nilai sebenarnya dari akan kurang dari nilai ini hanya dalam 5 persen, uji coba. Ini kemudian adalah pernyataan probabilitas pasti tentang parameter tidak diketahui , yang benar terlepas dari asumsi apa pun mengenai distribusi a priori-nya . $\theta$ $\theta$ $\theta$

metode frequentist membuat pernyataan tentang probabilitas bahwa percobaan (dengan interval acak) akan memiliki nilai sebenarnya dari parameter (mungkin acak) di dalam interval yang diberikan oleh statistik.
Ini tidak menjadi bingung dengan probabilitas bahwa percobaan tertentu (dengan interval tetap) akan memiliki nilai sebenarnya dari parameter (tetap) di dalam interval yang diberikan oleh statistik.

Lihat juga 'Tentang "Kemungkinan Kesalahan" dari Koefisien Korelasi yang Disimpulkan dari Sampel Kecil.' Fisher 1921 di mana Fisher menunjukkan perbedaan metodenya tidak menjadi probabilitas terbalik Bayesian.

Dalam makalah sebelumnya ditemukan, dengan menerapkan metode yang dikembangkan sebelumnya, bahwa nilai << kemungkinan >> dari korelasi populasi, secara numerik, sedikit lebih kecil daripada sampel. Kesimpulan ini dikritik secara merugikan di Biometrica , tampaknya pada asumsi yang salah bahwa saya telah menyimpulkannya dari teorema Bayes . Akan diperlihatkan dalam makalah ini bahwa ketika kurva sampling diberikan kira-kira normal, koreksi yang saya usulkan sama dengan jarak antara nilai populasi dan titik tengah dari kurva pengambilan sampel dan karenanya tidak lebih dari koreksi dari suatu Bias konstan diperkenalkan oleh metode perhitungan. Tidak ada asumsi mengenai probabilitas apriori yang terlibat.

dan

... dua konsep yang sangat berbeda telah dikacaukan dengan nama << probabilitas >> ...

itu adalah probabilitas dan kemungkinan. Lihat juga catatan di akhir artikel Fishers dari tahun 1921 di mana ia berbicara lebih banyak tentang kebingungan.

Perhatikan lagi bahwa kemungkinan adalah fungsi dari serangkaian parameter, tetapi bukan fungsi kepadatan probabilitas dari set parameter tersebut.

Probabilitas digunakan untuk sesuatu yang dapat Anda amati. Misalnya probabilitas bahwa dadu menggulung enam. Kemungkinan digunakan untuk sesuatu yang tidak dapat Anda amati, misalnya hipotesis bahwa dadu menggulung enam 1/6 dari waktu.

juga, Anda mungkin menyukai karya Fisher di mana ia jauh lebih ringan dalam pendapatnya tentang teorema Bayes (masih menggambarkan perbedaan). 'Pada dasar matematika dari statistik teoritis' Fisher 1922 (terutama bagian 6 'solusi formal masalah estimasi')

Lebih

Jika Anda dapat memahami dan menghargai komentar-komentar dari Fisher tentang perbedaan antara probabilitas terbalik dan prinsip kemungkinan Anda mungkin ingin membaca lebih lanjut tentang perbedaan-perbedaan dalam metode frequentist.

'Garis Besar Teori Estimasi Statistik Berdasarkan Teori Klasik Probabilitas' Neyman 1937

Yang merupakan karya 50 halaman dan sulit untuk diringkas. Tapi itu berkaitan dengan pertanyaan Anda tentang ketidak bias bias , menjelaskan metode kuadrat terkecil (dan perbedaan dengan metode kemungkinan maksimum), dan secara khusus memberikan perlakuan interval kepercayaan (interval frequentist sudah tidak sama, unik, apalagi yang sama seperti interval Bayesian untuk prior flat).

Mengenai uji-F tidak jelas, apa atas nama Laplace yang Anda anggap salah. Jika Anda menyukai penggunaan awal, Anda dapat melihat di 'Studi dalam variasi tanaman. II Tanggapan manurial dari varietas kentang berbeda 1923 Fisher dan Mackenzie

Makalah ini memiliki ekspresi anova dalam model linier yang dikenali yang membagi jumlah kuadrat menjadi antara dan di dalam kelompok.

(dalam pengujian artikel 1923 tes terdiri dari perbandingan perbedaan antara log penyimpangan standar sampel dengan kesalahan standar yang dihitung untuk perbedaan ini yang ditentukan oleh jumlah derajat kebebasan . Karya selanjutnya membuat ekspresi yang lebih canggih ini mengarah ke distribusi-F, sehingga dapat meredakan ide yang mungkin dimiliki seseorang tentangnya. Tetapi pada dasarnya, tanpa juggling teknis karena distribusi yang lebih tepat untuk angka kecil, asalnya mirip dengan z-test). $\frac{1}{2d_1} + \frac{1}{2d_2}$

— Sextus Empiricus
sumber