Apa perbedaan dalam estimasi Bayesian dan estimasi kemungkinan maksimum?

Tolong jelaskan kepada saya perbedaan dalam estimasi Bayesian dan estimasi kemungkinan maksimum?

bayesian maximum-likelihood

— triomphe
sumber

Tergantung pada jenis perkiraan Bayesian. PETA? Berarti posterior? Hasil meminimalkan risiko Bayes untuk beberapa fungsi kerugian? Masing-masing di atas? Sesuatu yang lain

— Glen_b

Saya sudah menjawab pertanyaan ini, atau analog, di sini. stats.stackexchange.com/questions/73439/... Masalah apa yang Anda miliki pahami keduanya? Lebih detail akan membantu kami memberikan jawaban yang lebih baik.

— Pasang kembali Monica

Dari manual referensi STAN: "Jika prior adalah seragam, mode posterior sesuai dengan estimasi kemungkinan maksimum (MLE) dari parameter. Jika prior tidak seragam, mode posterior kadang-kadang disebut estimasi maksimum a posterior (MAP). "

— Neerav

@ Neerav itulah jawaban yang saya butuhkan. thx

— javadba

Sebuah jawaban yang mungkin berguna untuk kasus spesifik Bayesian maksimum perkiraan posteriori diberikan di sini .

— pglpm

Jawaban:

Ini adalah pertanyaan yang sangat luas dan jawaban saya di sini hanya mulai sedikit menggores permukaan. Saya akan menggunakan aturan Bayes untuk menjelaskan konsep.

Mari kita asumsikan bahwa satu set parameter distribusi probabilitas, , terbaik menjelaskan dataset . Kami mungkin ingin memperkirakan parameter dengan bantuan Peraturan Bayes: $\theta$ $D$ $\theta$

p (θ | D) = \frac{p (D | θ) * p (θ)}{p (D)}

$p(\theta|D)=\frac{p(D|\theta) * p(\theta)}{p(D)}$

p o s t e r i o r = \frac{l i k e l i h o o d * p r i o r}{e v i d e n c e}

$posterior = \frac{likelihood * prior}{evidence}$

Penjelasannya mengikuti:

Perkiraan Kemungkinan Maksimum

$\theta$ $p(D|\theta)$ $\hat{\theta}$ $\hat{\theta}$

$\frac{p(\theta)}{p(D)}$ $p(\theta)$ $\theta$

Perkiraan Bayesian

$p(\theta|D)$ $\theta$

$\theta$ $p(\theta|D)$ $\theta$ $\theta$ $\theta$

$evidence$

p (D) = \int_{θ} p (D | θ) * p (θ) d θ

$p(D) = \int_{\theta} p(D|\theta) * p(\theta) d\theta$

Ini mengarah pada konsep 'konjugasi prior' dalam estimasi Bayesian. Untuk fungsi kemungkinan yang diberikan, jika kita memiliki pilihan mengenai bagaimana kita mengekspresikan kepercayaan kita sebelumnya, kita harus menggunakan formulir yang memungkinkan kita untuk melakukan integrasi yang ditunjukkan di atas. Gagasan konjugasi prior dan bagaimana mereka secara praktis diimplementasikan dijelaskan dengan cukup baik dalam posting ini oleh COOlSerdash.

— Zhubarb
sumber

Apakah Anda akan menguraikan lebih lanjut tentang ini? : "penyebut dalam aturan Bayes, yaitu bukti."

— Daniel

Saya memperpanjang jawaban saya.

— Zhubarb

@Berkan dalam persamaan di sini, P (D | theta) kemungkinan. Namun, fungsi kemungkinan didefinisikan sebagai P (theta | D), yaitu fungsi parameter, data yang diberikan. Saya selalu bingung tentang ini. Istilah kemungkinan merujuk pada berbagai hal di sini? Bisakah Anda menguraikan itu? Terima kasih banyak!

— zesla

@zesla jika pemahaman saya benar, P (theta | D) bukan kemungkinan - itu posterior. Artinya, distribusi theta tergantung pada sumber data yang Anda miliki sampel. Kemungkinannya adalah seperti yang Anda katakan: P (D | theta) - distribusi data Anda sebagai parameter oleh theta, atau mungkin secara intuitif, "kemungkinan melihat apa yang Anda lihat" sebagai fungsi dari theta. Apakah itu masuk akal? Semua orang: tolong perbaiki kalau saya salah.

— grisaitis

@zesla, penjelasan yang diberikan oleh grisaitis benar.

— Zhubarb

Saya pikir Anda berbicara tentang estimasi titik seperti dalam inferensi parametrik, sehingga kita dapat mengasumsikan model probabilitas parametrik untuk mekanisme menghasilkan data tetapi nilai aktual dari parameter tidak diketahui.

Estimasi kemungkinan maksimum mengacu pada penggunaan model probabilitas untuk data dan mengoptimalkan fungsi kemungkinan gabungan dari data yang diamati melalui satu atau lebih parameter. Oleh karena itu terlihat bahwa estimasi parameter paling konsisten dengan data yang diamati relatif terhadap parameter lain di ruang parameter. Perhatikan fungsi kemungkinan seperti itu tidak selalu dipandang sebagai "kondisional" pada parameter karena parameter tersebut bukan variabel acak, oleh karena itu agak lebih canggih untuk memahami kemungkinan berbagai hasil membandingkan dua parameterisasi yang berbeda. Ternyata ini adalah pendekatan filosofis yang sehat.

Estimasi Bayesian sedikit lebih umum karena kita belum tentu memaksimalkan analog Bayesian dari kemungkinan (kerapatan posterior). Namun, tipe estimasi analog (atau estimasi mode posterior) dipandang sebagai memaksimalkan probabilitas parameter posterior yang tergantung pada data. Biasanya, perkiraan Bayes yang diperoleh sedemikian rupa berperilaku hampir persis seperti ML. Perbedaan utama adalah bahwa inferensi Bayes memungkinkan metode eksplisit untuk memasukkan informasi sebelumnya.

Juga 'Sejarah Epik Kemungkinan Maksimum membuat pembacaan yang menerangi

http://arxiv.org/pdf/0804.2996.pdf

— AdamO
sumber

Apakah Anda akan menguraikan lebih lanjut tentang ini? "Namun, tipe estimasi analog (atau estimasi mode posterior) dipandang sebagai memaksimalkan probabilitas parameter posterior yang tergantung pada data."

— Daniel

Mode posterior sedikit keliru karena, dengan DF kontinu, nilainya didefinisikan dengan baik. Kepadatan posterior terkait dengan kemungkinan dalam kasus frequentist, kecuali bahwa memungkinkan Anda untuk mensimulasikan parameter dari kepadatan posterior. Menariknya, orang yang paling intuitif berpikir tentang "posterior mean" sebagai estimasi titik terbaik dari parameter. Pendekatan ini sering dilakukan dan, untuk kepadatan unimodal simetris, ini menghasilkan interval kredibel yang valid yang konsisten dengan ML. Mode posterior hanyalah nilai parameter di puncak kerapatan posterior.

— AdamO

Tentang "ini menghasilkan interval kredibel yang valid dan konsisten dengan ML.": Itu benar-benar tergantung pada model, bukan? Mereka mungkin konsisten atau tidak ...

— Daniel

Masalah asumsi parametrik yang mendasari memotivasi diskusi tentang inferensi parametrik penuh vs semi-parametrik atau non -parametrik . Itu bukan masalah ML vs Bayesian dan Anda bukan orang pertama yang membuat kesalahan itu. ML adalah pendekatan yang sepenuhnya parametrik, memungkinkan Anda untuk memperkirakan beberapa hal yang tidak dapat dilakukan SP atau NP (dan seringkali lebih efisien jika bisa). Menentukan model probabilitas dengan benar dalam ML sama persis dengan memilih sebelumnya yang benar dan semua sifat ketahanan (dan masalah sensitivitas) yang menyiratkan.

— AdamO

BTW, komentar Anda memicu pertanyaan ini di pikiran saya. Ada komentar tentang ini? stats.stackexchange.com/questions/74164/…

— Daniel

Perkiraan Bayesian adalah inferensi Bayesian sedangkan MLE adalah jenis metode inferensi frequentist.

$f(x_1,...,x_n; \theta) = \frac{f(\theta; x_1,...,x_n) * f(x_1,...,x_n)}{f(\theta)}$ $likelihood = \frac{posterior * evidence}{prior}$ $p(\theta) = 1/6$

Alternatif MLE dalam inferensi Bayesian disebut maksimum estimasi a posteriori (MAP), dan sebenarnya MLE adalah kasus khusus MAP di mana yang sebelumnya seragam, seperti yang kita lihat di atas dan sebagaimana dinyatakan dalam Wikipedia :

Dari sudut pandang inferensi Bayesian, MLE adalah kasus khusus dari estimasi a posteriori maksimum (MAP) yang mengasumsikan distribusi parameter yang seragam sebelumnya.

Untuk detailnya, silakan merujuk ke artikel yang luar biasa ini: MLE vs MAP: hubungan antara Kemungkinan Maksimum dan Estimasi Posteriori Maksimum .

Dan satu perbedaan lagi adalah bahwa kemungkinan maksimum adalah overfitting-rawan, tetapi jika Anda mengadopsi pendekatan Bayesian masalah over-fitting dapat dihindari.

— Lerner Zhang
sumber

Salah satu hal keren tentang Bayes adalah Anda tidak diwajibkan menghitung estimasi titik sama sekali. Seluruh kepadatan posterior bisa menjadi "perkiraan" Anda.

— Frank Harrell

@ Frankharrell Yang terhormat, Prof. Harrell, bisakah Anda membantu saya mengedit jawabannya jika saya membuat beberapa kesalahan yang mengerikan di suatu tempat? Terima kasih banyak!

— Lerner Zhang

Saya tidak bermaksud mengatakan bahwa Anda telah melakukan kesalahan.

— Frank Harrell

@ lerner: Saya ingin memperingatkan agar tidak mengidentifikasi estimasi kemungkinan-maksimum sebagai kasus tertentu dari estimasi maksimum-a-posteriori (ketika yang sebelumnya konstan): lihat mengapa dalam jawaban ini .

— pglpm