Frekuensi dan prior

Robby McKilliam mengatakan dalam komentar untuk posting ini :

Harus ditunjukkan bahwa, dari sudut pandang sering, tidak ada alasan bahwa Anda tidak dapat memasukkan pengetahuan sebelumnya ke dalam model. Dalam hal ini, tampilan sering lebih sederhana, Anda hanya memiliki model dan beberapa data. Tidak perlu memisahkan informasi sebelumnya dari model

Juga, di sini , @jbowman mengatakan bahwa frequentist menggunakan regularisasi oleh fungsi biaya / penalti, sementara bayesian dapat menjadikan ini sebagai prioritas:

Frequentists menyadari bahwa regularisasi itu baik, dan menggunakannya secara umum akhir-akhir ini - dan prior Bayesian dapat dengan mudah diartikan sebagai regularisasi.

Jadi, pertanyaan saya adalah, bisakah sering secara umum memasukkan ke dalam model mereka apa Bayesians tentukan sebagai prior? Dengan mengambil regularisasi sebagai contoh, apakah fungsi biaya / penalti benar-benar terintegrasi ke dalam model, atau apakah ini semata-mata merupakan cara artifisial untuk menyesuaikan solusi (serta menjadikannya unik)?

— Patrick
sumber

Bisakah seorang moderator memberi tahu jbowman dan Robby, sehingga mereka bisa menguraikan? Atau itu tidak tepat?

— Patrick

Patrick, Anda dapat memberi tahu anggota situs ini menggunakan konstruk "@". Saya telah menggambarkan ini dengan suntingan kecil.

— Whuber

Ini berfungsi di kedua tempat :-).

— whuber

Astaga, ya ampun, saya tidak diberitahu ... mungkin pengeditan tidak melakukannya? Sekarang saya penasaran.

— jbowman

OK, ternyata saya salah : mekanisme "@" berfungsi di komentar, bukan di pertanyaan. (Tapi jbowman tetap menemukan pertanyaan ini.)

— whuber

Jawaban:

Sehubungan dengan komentar Robby McKilliam: Saya pikir kesulitan yang sering dialami oleh seorang frequentist terletak pada definisi "pengetahuan sebelumnya", tidak begitu banyak dengan kemampuan untuk menggabungkan pengetahuan sebelumnya dalam suatu model. Sebagai contoh, pertimbangkan memperkirakan probabilitas bahwa koin tertentu akan muncul. Mari kita asumsikan pengetahuan saya sebelumnya, pada dasarnya, adalah percobaan di mana koin itu telah diputar 10 kali dan muncul dengan 5 kepala, atau mungkin dari bentuk "pabrik membuat 1 juta koin, dan distribusi , seperti ditentukan oleh eksperimen besar, adalah $p$ $\beta(a,b)$ ". Semua orang menggunakan Aturan Bayes ketika Anda benar-benar memiliki informasi sebelumnya dari tipe ini (Aturan Bayes hanya mendefinisikan probabilitas bersyarat, itu bukan hal Bayesian saja) sehingga dalam kehidupan nyata, orang sering dan Bayesian akan menggunakan pendekatan yang sama, dan memasukkan informasi ke dalam model melalui Peraturan Bayes. (Peringatan: kecuali ukuran sampel Anda cukup besar sehingga Anda cukup yakin informasi sebelumnya tidak akan berpengaruh pada hasil.) Namun, interpretasi hasil adalah, dari tentu saja berbeda.

Kesulitan muncul, terutama dari sudut pandang filosofis, karena pengetahuan menjadi kurang objektif / eksperimental dan lebih subyektif. Ketika ini terjadi, frequentist kemungkinan akan menjadi kurang cenderung untuk memasukkan informasi ini ke dalam model sama sekali, sedangkan Bayesian masih memiliki beberapa mekanisme formal untuk melakukan hal tersebut, kesulitan memperoleh subjektif sebelum terlepas dari.

Sehubungan dengan regularisasi: Pertimbangkan kemungkinan dan sebelumnya . Tidak ada yang mencegah, paling tidak secara teknis, seorang yang sering menggunakan estimasi kemungkinan maksimum "diatur" oleh , seperti pada: $l(\theta;x)$ $p(\theta)$ $\log p(\theta)$

$\tilde{\theta} = \max_{\theta} \{\log l(\theta;x) + \log p(\theta) \}$

Untuk Gaussian, ini sama dengan penalti kuadrat yang menyusut terhadap rata-rata Gaussian, dan seterusnya untuk distribusi lainnya. sama dengan estimasi titik maksimum a posteriori (MAP) dari Bayesian menggunakan fungsi kemungkinan yang sama dan sebelumnya. Tentu saja, sekali lagi, interpretasi perkiraan frequentist dan Bayesian akan berbeda. Bayesian juga tidak dibatasi untuk menggunakan estimasi titik MAP, memiliki akses ke distribusi posterior penuh - tetapi kemudian, frequentist tidak harus memaksimalkan kemungkinan log yang teregulasi baik, karena dapat menggunakan berbagai estimasi kuat, atau metode-of -moments, dll., jika tersedia. $p(\theta)$ $\theta$ $\tilde{\theta}$

Sekali lagi, kesulitan muncul dari sudut pandang filosofis. Mengapa memilih satu fungsi regularisasi daripada yang lain? Seorang Bayesian dapat melakukannya - bergeser ke tampilan berbasis sebelumnya - dengan menilai informasi sebelumnya. Seorang frequentist akan memiliki waktu yang lebih sulit (tidak mampu?) Membenarkan pilihan atas dasar-dasar itu, tetapi sebaliknya kemungkinan besar akan melakukannya berdasarkan sifat-sifat fungsi regularisasi sebagaimana diterapkan pada jenis masalahnya, seperti yang dipelajari dari sambungan. pekerjaan / pengalaman banyak ahli statistik. OTOH, (pragmatis) Bayesian melakukan itu dengan prior juga - jika saya punya $ 100 untuk setiap makalah tentang prior untuk varian yang saya baca ...

"Pikiran" lain: Saya telah melewatkan seluruh masalah dalam memilih fungsi kemungkinan dengan mengasumsikan bahwa itu tidak terpengaruh oleh sudut pandang frequentist / Bayesian. Saya yakin dalam sebagian besar kasus, tetapi saya dapat membayangkan bahwa dalam situasi yang tidak biasa, misalnya, karena alasan komputasi.

$\theta$ $\theta$

— Jbowman
sumber

Jadi, jika saya mengerti Anda benar: secara teknis, formal, seorang frequentist mungkin mengatur sebanyak yang dia suka tetapi (s) ia akan memiliki masalah membenarkannya. Seorang Bayesian mungkin masih kesulitan mengkuantifikasi regularisasi-nya, tetapi secara kualitatif dia punya cara yang konsisten untuk menggabungkannya.

— Patrick

Bayesian juga tidak dibatasi untuk menggunakan estimasi titik MAP, memiliki akses ke distribusi posterior penuh - tetapi kemudian, frequentist tidak harus memaksimalkan kemungkinan log yang teregulasi baik, karena dapat menggunakan berbagai estimasi kuat, atau metode-of -moments, dll., jika tersedia. The Frequentist tidak harus memaksimalkan. Tetapi ini masih merupakan metode yang tersedia untuk Frequentists, jika mereka memilihnya, kan? Perkiraan saya adalah bahwa karena alasan historis (tidak ada komputer!) Sering kali, banyak penduga yang cerdas menggunakan lengan baju yang mereka gunakan alih-alih menghitung fungsi kemungkinan penuh.

— Patrick

Untuk tujuan menjawab pertanyaan ini, penting untuk mendefinisikan frekuensi sebagai "menarik sifat-sifat distribusi sampling fungsi data." Fungsi tersebut dapat berupa titik penaksir, nilai p dari statistik pengujian, interval kepercayaan, hasil tes Neyman-Pearson, atau pada dasarnya hal lain yang dapat Anda pikirkan. Frequentism tidak menentukan cara membuat penduga, nilai-p, dll., Secara umum penuh, meskipun ada beberapa pedoman, misalnya, gunakan statistik yang cukup jika tersedia, gunakan statistik penting jika tersedia, dll. Dari ini perspektif, informasi sebelumnya tidak dimasukkan ke dalam model per se , melainkan ke dalam pemetaan fungsi data ke output fungsi.

"Bunga" yang disebutkan di atas adalah dalam sifat-sifat yang dianggap penting untuk inferensi, seperti kurangnya bias, konsistensi asimptotik, varians, kesalahan kuadrat rata-rata, kesalahan absolut rata-rata, cakupan kepercayaan (terutama nominal versus aktual), kontrol kesalahan Tipe I, dan apa pun lain dengan kepentingan yang jelas atau intuitif untuk belajar dari data. Properti ini dapat dinilai (dengan simulasi, jika tidak ada yang lain) apakah fungsi tersebut menggabungkan informasi sebelumnya atau tidak.

Minat khusus berpusat pada properti yang dapat diketahui tahan terlepas dari nilai parameter aktual yang mendasari proses pembuatan data. Sebagai contoh, dalam model normal iid dengan varians yang diketahui rata-rata data tidak bias dan konsisten asimtotik untuk distribusi berarti apa pun itu. Sebaliknya, penaksir penyusutan (rata-rata tertimbang dari rata-rata data dan perkiraan sebelumnya untuk rata-rata distribusi) memiliki kesalahan kuadrat rata-rata yang lebih rendah jika mean distribusi dekat dengan perkiraan sebelumnya, tetapi kesalahan kuadrat rata-rata yang lebih tinggi sebaliknya, meskipun itu " mewarisi "konsistensi asimptotik dari rerata data.

Jadi saya akan mengatakan bahwa seseorang dapat memasukkan informasi sebelumnya ke dalam metode inferensi, tetapi tidak masuk ke dalam model. Sebuah ilustrasi yang sangat bagus dari gagasan yang telah saya garis besarkan dalam konteks interval kepercayaan untuk sifat fisik yang tidak negatif adalah Feldman dan Sepupu, Pendekatan Terpadu untuk Analisis Statistik Klasik Sinyal Kecil .

— Cyan
sumber