Bagaimana Bayesian Statistics menangani ketiadaan prior?


16

Pertanyaan ini terinspirasi oleh dua interaksi terakhir yang saya miliki, satu di sini di CV , yang lain di economics.se.

Di sana, saya telah mengirimkan jawaban ke terkenal "Envelope Paradox" (pikiran Anda, bukan sebagai yang "jawaban yang benar" tetapi sebagai jawaban mengalir dari asumsi tertentu tentang struktur situasi). Setelah beberapa waktu pengguna memposting komentar kritis, dan saya terlibat dalam percakapan mencoba memahami maksudnya. Jelas bahwa dia memikirkan cara Bayesian, dan terus berbicara tentang prior - dan kemudian saya sadar, dan saya berkata pada diri saya sendiri: "Tunggu sebentar, siapa yang mengatakan sesuatu tentang sebelumnya? Dengan cara saya merumuskan masalah, tidak ada prior di sini, mereka hanya tidak masuk gambar, dan tidak perlu ".

Baru-baru ini, saya melihat jawaban ini di sini, di CV, tentang arti Kemandirian Statistik. Saya berkomentar kepada penulis bahwa hukumannya

"... jika peristiwa secara statistik independen maka (menurut definisi) kita tidak dapat belajar tentang satu dari mengamati yang lain."

itu salah besar. Dalam pertukaran komentar, ia terus kembali ke masalah (kata-katanya)

"Bukankah" belajar "berarti mengubah kepercayaan kita tentang sesuatu berdasarkan pengamatan orang lain? Jika demikian, bukankah kemerdekaan (secara definitif) menghalangi hal ini?

Sekali lagi, jelas bahwa dia memikirkan cara Bayesian, dan dia menganggap jelas bahwa kita mulai dengan beberapa kepercayaan (yaitu yang sebelumnya) , dan kemudian masalahnya adalah bagaimana kita dapat mengubah / memperbaruinya. Tapi bagaimana keyakinan pertama-pertama diciptakan?

Karena sains harus sesuai dengan kenyataan, saya perhatikan bahwa situasi ada ketika manusia yang terlibat tidak memiliki prior (saya, untuk satu hal, berjalan ke situasi tanpa ada sebelumnya sepanjang waktu - dan tolong jangan membantah bahwa saya memiliki prior tetapi saya hanya tidak menyadarinya, mari kita lupakan psikoanalisis palsu di sini).

Karena saya telah mendengar istilah "prior tidak informatif", saya memecahkan pertanyaan saya menjadi dua bagian, dan saya cukup yakin bahwa pengguna di sini yang memahami teori Bayesian, tahu persis apa yang akan saya tanyakan:

T1: Apakah tidak adanya sebelumnya yang setara (dalam pengertian teoritis yang ketat) untuk memiliki sebelumnya yang tidak informatif?

Jika jawaban untuk Q1 adalah "Ya" (dengan beberapa penjelasan tolong), maka itu berarti bahwa pendekatan Bayesian berlaku secara universal dan sejak awal , karena dalam hal apa pun manusia yang terlibat menyatakan "Saya tidak punya prior" kita dapat menambahkan dalam ini menempatkan prior yang tidak informatif untuk kasus yang dihadapi.

Tetapi jika jawaban untuk Q1 adalah "Tidak", maka Q2 datang:

T2: Jika jawaban untuk Q1 adalah "Tidak", apakah ini berarti bahwa, dalam kasus di mana tidak ada prior, pendekatan Bayesian tidak berlaku dari awal, dan kita harus terlebih dahulu membentuk prior dengan cara non-Bayesian, sehingga kita selanjutnya dapat menerapkan pendekatan Bayesian?


2
Saya akan mencatat bahwa sebagai seorang ilmuwan "tidak ada kepercayaan sebelumnya" adalah pernyataan yang cukup ekstremis ... mirip dengan hanya melihat "salju" statis dari TV analog lama yang disetel ke stasiun mati, dan hanya mendengar suara putih. Para ilmuwan secara nyata tidak percaya bahwa tidak ada sesuatu pun di dunia ini yang berhubungan dengan atau membawa informasi tentang apa pun ... jika kita percaya bahwa kita tidak akan menjadi ilmuwan. Tentu saja, artikulasi Bayesian tentang "tidak informatif" membawa kepercayaan yang sangat umum tentang kemungkinan dan probabilitas.
Alexis

2
@Alexis Tergantung pada situasinya. Misalnya dalam "Envelop Paradox" masalahnya adalah, setelah melihat jumlah yang terkandung dalam satu amplop, apakah saya memiliki keyakinan sebelumnya atau tidak tentang apakah yang saya lihat adalah jumlah "besar" atau jumlah "kecil". Dan saya tidak melihat sesuatu yang ekstrim dalam menyatakan di sini "Saya tidak memiliki kepercayaan sebelumnya tentang masalah ini".
Alecos Papadopoulos

1
Apakah Anda memiliki keyakinan sebelumnya bahwa ada beberapa jumlah dan bahwa mereka memiliki beberapa distribusi di antara amplop? (Bahkan jika Anda agnostik mengenai distribusi spesifik atau parameterisasi?)
Alexis

1
@Alexis Tentu, tetapi dirumuskan sebagai pengetahuan struktural yang ada secara independen dari informasi selanjutnya. Bukan keyakinan yang perlu diperbarui. Dan karena perumusan ini mencerminkan persepsi setidaknya satu anggota ras manusia (saya sendiri), itu adalah situasi dunia nyata, dan pertanyaannya adalah apakah itu dianggap setuju dengan analisis Bayesian atau tidak. Tentu saja untuk beberapa orang lain yang menyatakan "Saya memiliki keyakinan sebelumnya tentang distribusi jumlah antar amplop", penerapan pendekatan Bayesian jelas.
Alecos Papadopoulos

2
Anda tampaknya percaya bahwa TIDAK ada yang mendahului atau ada yang sebelumnya. Dalam pemodelan Bayesian seperti yang saya lihat, analisis posterior bersyarat atau relatif terhadap pilihan A prior dan saya tidak menggunakan ini sebelumnya sebagai absolut. Prioritas saya adalah cara alami untuk memperkenalkan struktur probabilitas dan mengukur ruang parameter.
Xi'an

Jawaban:


11

T1: Apakah tidak adanya sebelumnya yang setara (dalam pengertian teoritis yang ketat) untuk memiliki sebelumnya yang tidak informatif?

Tidak.

Pertama, tidak ada definisi matematis untuk "prior uninformative". Kata ini hanya digunakan secara informal untuk menggambarkan beberapa prior.

Misalnya, prior Jeffrey sering disebut "tidak informatif". Ini sebelum menggeneralisasi seragam sebelum untuk masalah invarian terjemahan. Entah bagaimana Jeffrey sebelumnya beradaptasi dengan geometri Riemannian (teoritik informasi) model dan dengan demikian tidak tergantung pada parametrization, hanya bergantung pada geometri manifold (dalam ruang distribusi) yang merupakan model. Mungkin dianggap sebagai kanonik, tetapi itu hanya pilihan. Itu hanya seragam sebelumnya sesuai dengan struktur Riemannian. Bukanlah tidak masuk akal untuk mendefinisikan "uninformative = uniform" sebagai penyederhanaan pertanyaan. Ini berlaku untuk banyak kasus dan membantu untuk mengajukan pertanyaan yang jelas dan sederhana.

Melakukan inferensi Bayesian tanpa prior adalah seperti "bagaimana saya bisa menebak tanpa asumsi tentang distribusi X hanya mengetahui bahwa X memiliki nilai dalam [ 0 ; 1 ] ?" Pertanyaan ini jelas tidak masuk akal. Jika Anda menjawab 0,5, Anda mungkin memiliki distribusi dalam pikiran.E(X)XX[0;1]

Pendekatan Bayesian dan frequentist hanya menjawab pertanyaan yang berbeda. Misalnya, tentang penaksir yang mungkin paling sederhana:

  • Frequentist (misalnya): "Bagaimana saya bisa memperkirakan sehingga jawaban saya memiliki kesalahan terkecil (hanya rata-rata lebih dari x ) dalam kasus terburuk (lebih dari θ )?". Ini mengarah ke penaksir minimum.θxθ

  • θθ

Entah bagaimana, frequentist bertujuan untuk mengontrol kasus terburuk dan tidak perlu sebelumnya. Bayesian bertujuan untuk mengendalikan rata-rata dan memerlukan sebelumnya untuk mengatakan "rata-rata dalam arti apa?".

T2: Jika jawaban untuk Q1 adalah "Tidak", apakah ini berarti bahwa, dalam kasus di mana tidak ada prior, pendekatan Bayesian tidak berlaku dari awal, dan kita harus terlebih dahulu membentuk prior dengan cara non-Bayesian, sehingga kita selanjutnya dapat menerapkan pendekatan Bayesian?

Iya.

XN(μ,1)μ

Masalah sebenarnya dengan spesifikasi sebelumnya terjadi pada masalah yang lebih rumit menurut saya. Yang penting di sini adalah memahami apa yang dikatakan oleh seorang pendahulu.


2
(+1) Terima kasih, ini sangat informatif.
Alecos Papadopoulos

4

Pertama-tama, pendekatan Bayesian sering digunakan karena Anda ingin memasukkan pengetahuan sebelumnya dalam model Anda untuk memperkaya itu. Jika Anda tidak memiliki pengetahuan sebelumnya, maka Anda tetap berpegang pada apa yang disebut sebagai "informasi kurang informatif" atau informasi mingguan. Perhatikan bahwa prior uniform bukanlah definisi "tidak informatif", karena asumsi tentang keseragaman adalah asumsi. Tidak ada yang namanya sebelumnya benar-benar tidak informatif. Ada kasus di mana "itu bisa menjadi apa saja" adalah asumsi "masuk akal" yang masuk akal, tetapi ada juga kasus di mana menyatakan bahwa "semua nilai sama kemungkinannya" adalah asumsi yang sangat kuat dan tidak masuk akal. Misalnya, jika Anda berasumsi bahwa tinggi badan saya bisa berkisar antara 0 sentimeter dan 3 meter, dengan semua nilai sama-sama kemungkinan apriori, ini tidak akan menjadi asumsi yang masuk akal dan itu akan memberi terlalu banyak bobot pada nilai ekstrem, sehingga mungkin bisa merusak posterior Anda.

Di sisi lain, Bayesian berpendapat bahwa sebenarnya tidak ada situasi di mana Anda tidak memiliki pengetahuan atau kepercayaan sebelumnya. Anda selalu dapat mengasumsikan sesuatu dan sebagai manusia, Anda melakukannya setiap saat (psikolog dan ekonom perilaku membuat banyak penelitian tentang topik ini). Seluruh keributan Bayesian dengan para prior adalah tentang mengukur prakonsepsi tersebut dan menyatakannya secara eksplisit dalam model Anda, karena inferensi Bayesian adalah tentang memperbarui kepercayaan Anda .

Sangat mudah untuk mengajukan argumen "tidak ada asumsi sebelumnya", atau prior uniform, untuk masalah abstrak, tetapi untuk masalah kehidupan nyata Anda akan memiliki pengetahuan sebelumnya. Jika Anda perlu bertaruh tentang jumlah uang dalam amplop, Anda akan tahu bahwa jumlahnya harus non-negatif dan terbatas. Anda juga bisa membuat perkiraan berpendidikan tentang batas atas untuk jumlah uang yang mungkin diberikan pengetahuan Anda tentang aturan kontes, dana yang tersedia untuk musuh Anda, pengetahuan tentang ukuran fisik amplop dan jumlah uang yang secara fisik dapat ditampung di dalamnya, dll. Anda juga bisa membuat tebakan tentang jumlah uang yang bisa ditaruh musuh Anda di dalam amplop dan mungkin longgar. Ada banyak hal yang akan Anda ketahui sebagai dasar untuk pendahulunya.


2
@AlecosPapadopoulos maaf karena tidak mengatakan apa yang ingin Anda dengar, tapi saya percaya ini adalah bagian dari jawaban untuk pertanyaan Anda. Mengenai Q1, jelas mengasumsikan seragam sebelumnya tidak sama dengan tidak mengasumsikan sebelumnya, karena Anda membuat asumsi. Jika Anda tidak ingin menggunakan prior sama sekali, gunakan kemungkinan maksimum atau pendekatan Bayes empiris.
Tim

2
Apa yang "ingin kudengar"? Seperti yang saya pahami, ketika seseorang mengajukan pertanyaan di sini, sangat diharapkan bahwa jawabannya adalah tentang pertanyaan itu. Tidak ada yang khusus saya "ingin dengar" (tidak ada prior di sini juga), saya hanya mencari jawaban untuk pertanyaan spesifik, dan komentar saya adalah tentang tidak melihat dengan cara apa jawaban Anda menjawab pertanyaan saya. Tetapi dalam komentar Anda, saya pikir ada sesuatu yang benar-benar relevan: "Pendekatan empiris Bayes"? Bisakah Anda menyebutkan / menunjukkan beberapa literatur?
Alecos Papadopoulos

3
@AlecosPapadopoulos Bayes empiris memilih prior Anda berdasarkan data (yaitu curang). Anda dapat mulai dengan Wikipedia atau makalah dari Efron (mudah googlable di Google scholar).
Tim

2
Misalkan, Anda mulai pada masalah pada hari Senin, dan memiliki sebelumnya, katakan standar normal. Jadi, Anda tancapkan ke data Anda, jalankan analisis, pelajari sesuatu. Pada hari Selasa Anda tidak dapat menggunakannya sebelumnya, karena Anda sudah mempelajari sesuatu. Jadi, Anda harus mencolokkan yang berbeda sebelumnya, sungguh. Jadi, dalam Bayesian yang ketat, prior adalah penggunaan tunggal. Anda benar-benar dapat menjalankannya hanya melalui perangkat lunak SEKALI. Saat Anda mendapatkan hasil, yang sebelumnya sudah kadaluwarsa, kecuali jika Anda tidak belajar APA SAJA. Jadi secara praktis pendekatan Bayesian tidak dapat digunakan dalam bentuknya yang murni, semua orang Bayesian terus-menerus menipu diri mereka sendiri
Aksakal

3
@Aksakal Tapi mengapa tidak valid untuk digunakan, pada hari Selasa, seperti yang baru saya lakukan sebelumnya, posterior yang saya dapatkan pada hari Senin? Cara saya mengatakannya, ini adalah prosedur sekuensial yang benar-benar valid. Jadi saya tidak mengerti mengapa Anda menulis "Bayesians terus menerus menipu diri mereka sendiri".
Alecos Papadopoulos

3

pertanyaan 1 Saya pikir jawabannya mungkin tidak. Alasan saya adalah kita tidak benar-benar memiliki definisi untuk "tidak informatif" kecuali entah bagaimana mengukur seberapa jauh jawaban akhir dari beberapa model / kemungkinan informasi yang sewenang-wenang. Banyak prior uninformative divalidasi terhadap contoh "intuitif" di mana kita sudah memiliki "model / kemungkinan" dan "jawabannya" dalam pikiran. Kami kemudian meminta informasi sebelum memberikan kami jawaban yang kami inginkan.

Masalah saya dengan hal ini adalah saya berjuang untuk percaya bahwa seseorang dapat memiliki model atau struktur model yang benar-benar baik untuk populasi mereka, dan secara bersamaan memiliki "tidak ada informasi" tentang nilai parameter yang mungkin dan tidak mungkin untuk model itu. Misalnya menggunakan regresi logistik, lihat "DISTRIBUSI SEBELUM INFORMATIF INFORMATIF. UNTUK MODEL REGRESI LOGISTIK DAN LAINNYA"

Saya pikir seragam diskrit sebelumnya adalah satu-satunya yang bisa kita katakan adalah "pertama-pertama" sebelumnya. Tetapi Anda mengalami masalah dalam menggunakannya, mengira Anda tidak memiliki "informasi", tetapi kemudian tiba-tiba bereaksi terhadap jawaban "tidak intuitif" (petunjuk: jika Anda tidak menyukai jawaban bayesian - Anda mungkin meninggalkan informasi sebelumnya atau kemungkinan!). Masalah lain yang Anda hadapi adalah mendapatkan diskresi yang tepat untuk masalah Anda. Dan bahkan memikirkan hal ini, Anda perlu mengetahui jumlah nilai diskrit untuk menerapkan seragam diskrit sebelumnya.

Properti lain yang perlu dipertimbangkan untuk prioritas Anda adalah "perilaku ekor" relatif terhadap kemungkinan yang Anda gunakan.

ke pertanyaan 2

Secara konseptual, saya tidak melihat ada yang salah dengan menentukan distribusi tanpa menggunakan sebelum atau kemungkinan. Anda dapat memulai masalah dengan mengatakan "pdf saya adalah ... dan saya ingin menghitung ... wrt pdf ini". Kemudian Anda membuat batasan untuk sebelumnya, prediksi sebelumnya, dan kemungkinan. Metode bayesian adalah untuk ketika Anda memiliki sebelum dan kemungkinan, dan Anda ingin menggabungkan mereka ke dalam distribusi posterior.

Mungkin masalah menjadi jelas tentang apa probabilitas Anda. Kemudian argumen beralih ke "apakah pdf / pmf ini mewakili apa yang saya katakan mewakili?" - yang merupakan ruang yang Anda inginkan di saya pikir. Dari contoh Anda, Anda mengatakan distribusi tunggal mencerminkan semua informasi yang tersedia - tidak ada "sebelum" karena sudah terkandung (secara implisit) dalam distribusi yang Anda gunakan.

U(0,1)Bin(n,p)Beta(0,0)21

pada apa yang disebut komentar yang salah terang-terangan

Sejujurnya, saya akan sangat tertarik untuk melihat bagaimana numbet pengamatan dapat digunakan untuk memprediksi pengamatan "independen secara statistik". Sebagai contoh, jika saya katakan saya akan menghasilkan 100 variabel normal standar. Saya memberi Anda 99, dan membuat Anda memberi saya prediksi terbaik Anda untuk yang ke-100. Saya katakan Anda tidak bisa membuat prediksi yang lebih baik untuk yang ke-100 daripada 0. Tapi ini sama dengan yang Anda prediksi untuk yang ke-100 jika saya tidak memberi Anda data. Karenanya Anda tidak belajar apa pun dari 99 poin data.

Namun, jika saya memberi tahu Anda bahwa itu "beberapa distribusi normal", Anda dapat menggunakan 99 titik data untuk memperkirakan parameter. Maka data sekarang tidak lagi "independen secara statistik", karena kita belajar lebih banyak tentang struktur umum saat kita mengamati lebih banyak data. Prediksi terbaik Anda sekarang menggunakan semua 99 poin data


1
(+1) Terima kasih atas jawaban bijaksana Anda. Klarifikasi tentang pernyataan "salah besar": itu dibuat karena "belajar" (dan saya berbicara tentang arti umum kata itu) adalah konsep yang jauh lebih luas daripada "prediksi". Jika dua peristiwa secara struktural serupa, kita dapat mempelajari hal-hal yang terkait dengan yang satu dengan mempelajari yang lain, meskipun mereka mungkin secara statistik independen. Anda juga berbicara tentang "struktur umum" dalam jawaban Anda, itu saja yang ada di sana.
Alecos Papadopoulos

@Alecos Papadopoulos - intinya adalah Anda tidak dapat belajar tanpa membuat hal-hal bergantung secara statistik. Mengambil contoh saya, apa yang bisa dipelajari dalam skenario 1? Selain itu struktur umum perlu diketahui, tidak hanya hadir.
probabilityislogic

1
Mengomentari kalimat terakhir dari posting Anda, fakta bahwa kami dapat mempelajari sesuatu tentang struktur umum seperti yang Anda tunjukkan, tidak membuat variabel acak yang terlibat "tergantung secara statistik". Mereka tetap "independen dalam probabilitas", yang merupakan cara lain untuk mengatakan "independen secara statistik", sebuah konsep yang memiliki makna yang sangat tepat secara matematis. Bahwa mereka memiliki karakteristik yang sama (di sini, jangkauannya ditandai oleh distribusi probabilitas yang sama), tidak membuat mereka bergantung secara statistik.
Alecos Papadopoulos

Ungkapan Anda "independen dalam probabilitas" tidak jelas bagi saya, dan saya menduga inilah sebabnya saya tidak setuju dengan apa yang Anda katakan. Jika ini diganti dengan "independen kondisional" atau "dapat ditukar" maka apa yang Anda katakan masuk akal. Saya juga masih menunggu sesuatu yang bisa dipelajari dari 99 iid standar normal rvs yang membantu dengan yang ke-100 (tidak perlu tentang prediksi).
probabilityislogic

1
@probabilisticlogic "Independen dalam probabilitas" adalah ungkapan yang dapat ditemukan biasanya dalam karya yang lebih lama, dan berarti kemandirian statistik seperti yang diungkapkan melalui fungsi distribusi. 99 rv akan memungkinkan saya untuk mempelajari semua jenis properti, karakteristik dll dari 100, momen, kuantil, sebut saja.
Alecos Papadopoulos

3

Ini hanya komentar singkat sebagai tambahan untuk jawaban bagus lainnya. Seringkali, atau setidaknya kadang-kadang, agak sewenang-wenang (atau konvensional) bagian mana dari informasi yang memasukkan analisis statistik disebut data dan bagian mana yang disebut sebelumnya . Atau, secara lebih umum, kita dapat mengatakan bahwa informasi dalam analisis statistik berasal dari tiga sumber: model , data , dan sebelumnya . Dalam beberapa kasus, seperti model linier atau glm, pemisahannya cukup jelas, setidaknya secara konvensional.

Saya akan menggunakan kembali contoh dari Estimasi Kemungkinan Maksimum (MLE) dalam istilah awam untuk menggambarkan poin saya. Katakanlah seorang pasien memasuki kantor dokter, dengan beberapa masalah medis yang ternyata sulit didiagnosis. Dokter ini belum pernah melihat sesuatu yang sangat mirip sebelumnya. Kemudian, berbicara dengan pasien itu muncul beberapa informasi baru: pasien ini mengunjungi Afrika tropis baru-baru ini. Kemudian tampak oleh dokter bahwa ini bisa malaria atau penyakit tropis lainnya. Tetapi perhatikan, bahwa informasi ini jelas bagi kami data, tetapi setidaknya dalam banyak model statistik yang dapat digunakan, itu akan memasukkan analisis dalam bentuk distribusi sebelumnya, distribusi sebelumnya memberikan probabilitas lebih tinggi untuk beberapa penyakit tropis. Tapi kita bisa, mungkin, membuat beberapa model (lebih besar), lebih lengkap, di mana informasi ini dimasukkan sebagai data. Jadi, setidaknya sebagian, data pembedaan / sebelumnya adalah konvensional.

Kami terbiasa, dan menerima, konvensi ini karena penekanan kami pada beberapa kelas model konvensional. Tetapi, dalam skema yang lebih besar, di luar dunia model statistik bergaya, situasinya kurang jelas.

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.