Sehubungan dengan komentar Robby McKilliam: Saya pikir kesulitan yang sering dialami oleh seorang frequentist terletak pada definisi "pengetahuan sebelumnya", tidak begitu banyak dengan kemampuan untuk menggabungkan pengetahuan sebelumnya dalam suatu model. Sebagai contoh, pertimbangkan memperkirakan probabilitas bahwa koin tertentu akan muncul. Mari kita asumsikan pengetahuan saya sebelumnya, pada dasarnya, adalah percobaan di mana koin itu telah diputar 10 kali dan muncul dengan 5 kepala, atau mungkin dari bentuk "pabrik membuat 1 juta koin, dan distribusi , seperti ditentukan oleh eksperimen besar, adalah β ( a , bpβ(a,b)". Semua orang menggunakan Aturan Bayes ketika Anda benar-benar memiliki informasi sebelumnya dari tipe ini (Aturan Bayes hanya mendefinisikan probabilitas bersyarat, itu bukan hal Bayesian saja) sehingga dalam kehidupan nyata, orang sering dan Bayesian akan menggunakan pendekatan yang sama, dan memasukkan informasi ke dalam model melalui Peraturan Bayes. (Peringatan: kecuali ukuran sampel Anda cukup besar sehingga Anda cukup yakin informasi sebelumnya tidak akan berpengaruh pada hasil.) Namun, interpretasi hasil adalah, dari tentu saja berbeda.
Kesulitan muncul, terutama dari sudut pandang filosofis, karena pengetahuan menjadi kurang objektif / eksperimental dan lebih subyektif. Ketika ini terjadi, frequentist kemungkinan akan menjadi kurang cenderung untuk memasukkan informasi ini ke dalam model sama sekali, sedangkan Bayesian masih memiliki beberapa mekanisme formal untuk melakukan hal tersebut, kesulitan memperoleh subjektif sebelum terlepas dari.
Sehubungan dengan regularisasi: Pertimbangkan kemungkinan dan p sebelumnya ( θ ) . Tidak ada yang mencegah, paling tidak secara teknis, seorang yang sering menggunakan estimasi kemungkinan maksimum "diatur" oleh log p ( θ ) , seperti pada:l(θ;x)p(θ)logp(θ)
θ~=maxθ{logl(θ;x)+logp(θ)}
Untuk Gaussian, ini sama dengan penalti kuadrat yang menyusut θ terhadap rata-rata Gaussian, dan seterusnya untuk distribusi lainnya. ˜ θ sama dengan estimasi titik maksimum a posteriori (MAP) dari Bayesian menggunakan fungsi kemungkinan yang sama dan sebelumnya. Tentu saja, sekali lagi, interpretasi perkiraan frequentist dan Bayesian akan berbeda. Bayesian juga tidak dibatasi untuk menggunakan estimasi titik MAP, memiliki akses ke distribusi posterior penuh - tetapi kemudian, frequentist tidak harus memaksimalkan kemungkinan log yang teregulasi baik, karena dapat menggunakan berbagai estimasi kuat, atau metode-of -moments, dll., jika tersedia.p(θ)θθ~
Sekali lagi, kesulitan muncul dari sudut pandang filosofis. Mengapa memilih satu fungsi regularisasi daripada yang lain? Seorang Bayesian dapat melakukannya - bergeser ke tampilan berbasis sebelumnya - dengan menilai informasi sebelumnya. Seorang frequentist akan memiliki waktu yang lebih sulit (tidak mampu?) Membenarkan pilihan atas dasar-dasar itu, tetapi sebaliknya kemungkinan besar akan melakukannya berdasarkan sifat-sifat fungsi regularisasi sebagaimana diterapkan pada jenis masalahnya, seperti yang dipelajari dari sambungan. pekerjaan / pengalaman banyak ahli statistik. OTOH, (pragmatis) Bayesian melakukan itu dengan prior juga - jika saya punya $ 100 untuk setiap makalah tentang prior untuk varian yang saya baca ...
"Pikiran" lain: Saya telah melewatkan seluruh masalah dalam memilih fungsi kemungkinan dengan mengasumsikan bahwa itu tidak terpengaruh oleh sudut pandang frequentist / Bayesian. Saya yakin dalam sebagian besar kasus, tetapi saya dapat membayangkan bahwa dalam situasi yang tidak biasa, misalnya, karena alasan komputasi.
θθ