Bagaimana orang Bayesian membandingkan distribusi?


25

Jadi, saya pikir saya memiliki pemahaman yang baik tentang dasar-dasar probabilitas dan analisis statistik frequentist (dan seberapa buruk itu dapat digunakan). Dalam dunia yang sering terjadi, masuk akal untuk mengajukan pertanyaan seperti "apakah distribusi ini berbeda dari distribusi itu", karena distribusi diasumsikan nyata, obyektif dan tidak berubah (untuk situasi tertentu, setidaknya), dan kita dapat mencari mengetahui seberapa besar kemungkinan satu sampel diambil dari distribusi yang berbentuk seperti sampel lain.

Dalam pandangan dunia Bayesian, kami hanya peduli tentang apa yang kami harapkan untuk dilihat, mengingat pengalaman masa lalu kami (saya masih agak kabur pada bagian ini, tetapi saya memahami konsep pembaruan Bayesian). Jika demikian, bagaimana bisa Bayesian mengatakan "set data ini berbeda dari set data"?

Untuk keperluan pertanyaan ini, saya tidak peduli tentang signifikansi statistik, atau yang serupa, hanya bagaimana mengukur perbedaan. Saya sama tertarik pada distribusi parametrik dan non-parametrik.


Bisakah Anda mengklarifikasi apa yang Anda maksud dengan "set data ini berbeda dari set data itu?" Seperti dalam, apakah Anda mengacu pada perbandingan dua kelompok atau lebih, seperti pendapatan laki-laki vs pendapatan perempuan? Atau mungkin bagaimana seorang Bayesian membandingkan dua sampel pendapatan tanpa pengetahuan gender?
ramhiser

2
@ JohnA.Ramey: Apa bedanya? Setelah semuanya angka, bukankah "pria" dan "wanita" hanya label untuk sampel?
naught101

Jawaban:


13

Pikirkan pernyataan Anda sebagai seorang Frequentist dan buatlah itu lebih spesifik terlebih dahulu. Seorang Frequentist tidak dapat mengatakan bahwa "kumpulan data A berbeda dari kumpulan data B", tanpa klarifikasi lebih lanjut.

Pertama, Anda harus menyatakan apa yang Anda maksud dengan "berbeda". Mungkin maksud Anda "memiliki nilai rata-rata yang berbeda". Kemudian lagi, Anda mungkin berarti "memiliki varian yang berbeda". Atau mungkin sesuatu yang lain?

Kemudian, Anda harus menyatakan tes seperti apa yang akan Anda gunakan, yang tergantung pada apa yang Anda yakini sebagai asumsi yang valid tentang data tersebut. Apakah Anda berasumsi bahwa kumpulan data terdistribusi normal tentang beberapa cara? Atau apakah Anda yakin keduanya terdistribusi Beta? Atau sesuatu yang lain?

Sekarang dapatkah Anda melihat bahwa keputusan kedua sama seperti prior dalam statistik Bayesian? Ini bukan hanya "pengalaman masa lalu saya", tetapi lebih pada apa yang saya yakini, dan apa yang saya yakini teman-teman saya yakini, adalah asumsi yang masuk akal tentang data saya. (Dan orang Bayesian dapat menggunakan prior yang seragam, yang mendorong berbagai hal ke arah kalkulasi Frequentist.)

EDIT: Menanggapi komentar Anda: langkah selanjutnya terkandung dalam keputusan pertama yang saya sebutkan. Jika Anda ingin memutuskan apakah cara dua kelompok berbeda, Anda akan melihat distribusi perbedaan cara dua kelompok untuk melihat apakah distribusi ini mengandung atau tidak mengandung nol, pada tingkat kepercayaan tertentu. Seberapa dekat dengan nol Anda menghitung sebagai nol dan bagian mana dari distribusi (posterior) yang Anda gunakan ditentukan oleh Anda dan tingkat kepercayaan yang Anda inginkan.

Sebuah diskusi tentang ide-ide ini dapat ditemukan dalam sebuah makalah oleh Kruschke , yang juga menulis sebuah buku yang sangat mudah dibaca, Melakukan Analisis Data Bayesian , yang mencakup contoh di halaman 307-309, "Are Different Groups Equal?". (Edisi kedua: hlm. 468-472). Ia juga memiliki posting blog tentang hal itu , dengan beberapa tanya jawab.

EDIT LEBIH LANJUT: Deskripsi Anda tentang proses Bayesian juga tidak sepenuhnya benar. Bayesians hanya peduli tentang apa yang data katakan kepada kami, mengingat apa yang kami tahu terlepas dari data. (Seperti yang Kruschke tunjukkan, yang sebelumnya tidak harus terjadi sebelum data. Itulah yang tersirat dari frasa tersebut, tetapi itu benar-benar hanya pengetahuan kita yang mengecualikan beberapa data.) Apa yang kita ketahui secara independen dari sekumpulan data tertentu mungkin kabur atau spesifik dan mungkin didasarkan pada konsensus, model proses pembuatan data yang mendasarinya, atau mungkin hanya hasil dari eksperimen lain (tidak harus sebelumnya).


Ya, oke, sering menganggap distribusi, dan itu subjektif. Tetapi kemudian mereka hanya dapat mengukur parameter dari setiap sampel, dengan kesalahan, dan mengatakan "ok, ini adalah parameter dari populasi sebenarnya dari setiap sampel, dan sekarang berapa probabilitas bahwa perbedaannya hanya karena kesalahan pengambilan sampel". Pertanyaan saya adalah tentang langkah setelah jawaban Anda - bagaimana Bayesian menyimpulkan perbedaan antara sampel (mari kita asumsikan sampel berasal dari jenis distribusi yang sama, parametrik atau tidak).
naught101

@ naught101: Silakan lihat edit saya.
Wayne

@Wayne kertas yang Anda tautkan sangat bagus. Terima kasih telah berbagi
Cam.Davidson.Pilon

@ naught101: Saya telah memperbarui tautan blog. Dia jelas menyimpan versi artikel yang lebih lama dan setiap tautan ke yang lebih baru, dan yang saya tautkan pertama kali adalah tiga versi yang ketinggalan zaman.
Wayne

Ini adalah metode yang cukup keren, dan sangat memperjelas bagaimana inferensi bayesian dapat bekerja (dengan memperlakukan parameter distribusi sebagai sumber ketidakpastian). Sayang sekali ini intensif secara komputasi. Juga, penggunaan 95% CI tampaknya agak terlalu banyak seperti menetapkan tingkat signifikansi, tapi saya tidak bisa melihat apakah ada cara nyata untuk mendapatkan setara dengan nilai p yang dilaporkan (mungkin jumlah probabilitas probabilitas nilai yang lebih banyak) ekstrim dari 0 dari mean, untuk perbedaan dalam mean?).
naught101

14

makalah ini mungkin menarik: http://arxiv.org/pdf/0906.4032v1.pdf

Ini memberikan ringkasan yang bagus dari beberapa pendekatan yang sering dan Bayesian untuk dua masalah sampel, dan membahas kasus parametrik dan nonparametrik.

Mungkin menambahkan sesuatu ke jawaban lain untuk memberikan contoh sederhana. Katakanlah Anda memiliki dua set data dan y di mana masing-masing x i dan masing-masing adalah atau . Anda menganggap model iid Bernoulli dalam kedua kasus, sehingga masing-masing dan setiap . Hipotesis Anda menguji skenario di kedua yang frequentist dan pengaturan Bayesian dapat:xyxi 0 1 x iB e r n ( p ) y iB e r n ( q )yj01xiBern(p)yiBern(q)

H0:p=q

H1:p,q tidak harus sama.

Kemungkinan data dalam setiap kasus adalah:

Di bawah :H0L.0(hal)=f(x,y;hal)=sayahalsaya(1-hal)1-sayajhalj(1-hal)1-j

Di bawah :H1L.1(hal,q)=f(x,y;hal,q)=sayahalsaya(1-hal)1-sayajqj(1-q)1-j

(sejak di bawah ). Pendekatan yang sering dilakukan untuk masalah mungkin adalah dengan melakukan uji rasio kemungkinan, di mana Anda menghitung statistik:H0q=hal

W=-2log{L.0(halmSebuahx)L.1(halmSebuahx,qmSebuahx)},

di mana menunjukkan estimasi kemungkinan maksimum untuk dan bawah hipotesis yang relevan (jadi dalam pembilang mungkin tidak sama dengan dalam penyebut). asimptotik mengikuti (lihat misalnya Pawitan, 2001), jadi Anda akan menentukan tingkat signifikansi dan menolak / gagal untuk menolak sesuai.halmSebuahx,qmSebuahxhalqhalmSebuahxhalmSebuahxWχ12H0

Secara tradisional, dalam pendekatan Bayesian statistik uji akan menjadi faktor Bayes. Pertama, Anda akan mengasumsikan beberapa prior prior bawah dan bawah . Faktor Bayes adalah rasio kemungkinan marjinal, yang diberikan oleh:halπ0H0hal,qπ1H1

BF=f(x,y|H0)f(x,y|H1)=01L.0(hal)π0(hal)dhal0101L.1(hal,q)π1(hal,q)dhaldq .

Faktor Bayes dapat dikombinasikan dengan beberapa keyakinan sebelumnya tentang kemungkinan atau benar, untuk memberikan probabilitas dibandingkan setelah melihat data . Jika kita mengasumsikan apriori bahwa setiap hipotesis memiliki kemungkinan yang sama, maka , maka ini memberi:H0H1H0H1 hal(H0)=hal(H1)=1/2

hal(H0|x,y)hal(H1|x,y)=BF×hal(H0)hal(H1)=BF×1/21/2=BF.

Secara intuitif, jika rasio ini , maka probabilitas posterior dari lebih besar dari , jadi Anda akan mengatakan bahwa memiliki probabilitas lebih tinggi untuk menjadi kenyataan di bawah ini asumsi untuk prior dan model.>1H0H1H0

Satu hal yang menyenangkan tentang faktor Bayes adalah bagaimana hal itu secara otomatis menghukum model yang lebih kompleks (seperti sini). Sebuah makalah yang bagus menawarkan beberapa intuisi ada di sini: http://quasar.as.utexas.edu/papers/ockham.pdf .H1

Harapan yang membantu bersama dengan jawaban lain yang sudah diposting.


0

Dengan data yang diberikan, seberapa kuat kita percaya bahwa 2 kelompok tidak berasal dari populasi yang sama (H_1: mereka tidak berasal dari populasi yang sama vs H_0: mereka berasal dari populasi yang sama). Ini dapat dilakukan dengan uji-Bayesian.

Kompleksitas digunakan untuk mencari tahu berapa banyak yang sebelumnya tumpang tindih dengan satu hipotesis. Fit digunakan untuk mencari tahu seberapa besar posterior tumpang tindih dengan satu hipotesis. Gabungan Anda dapat membandingkan hipotesis dan mengekspresikan keyakinan posterior Anda apakah mereka berasal dari populasi yang sama atau tidak.

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.