Koneksi antara statistik Bayesian dan pemodelan generatif


15

Dapatkah seseorang merujuk saya ke referensi yang baik yang menjelaskan hubungan antara statistik Bayesian dan teknik pemodelan generatif? Mengapa kita biasanya menggunakan model generatif dengan teknik Bayesian?

Mengapa sangat menarik untuk menggunakan statistik Bayesian jika tidak ada data lengkap, jika sama sekali?

Perhatikan bahwa saya berasal dari pandangan yang lebih berorientasi pada pembelajaran mesin, dan saya tertarik untuk membacanya lebih banyak dari komunitas statistik.

Referensi bagus yang membahas poin-poin ini akan sangat dihargai. Terima kasih.


Saya telah mengeksplorasi tentang perbedaan mendasar antara mode transformasi adaptif dan generatif. Tampaknya Bayesian cocok sebagai model statistik untuk mempelajari adaptif tetapi tidak generatif. Perlu sampai pada kesimpulan ini dengan lebih percaya diri.

1
Hai Srinidhi, selamat datang di situs ini. Ini adalah situs tanya jawab. Bisakah Anda merumuskan kembali komentar Anda menjadi sebuah pertanyaan? Selain itu, semakin spesifik pertanyaannya, semakin besar kemungkinan mendapatkan jawaban yang bermanfaat.
naught101

Jawaban:


12

Dalam pembelajaran mesin model probabilitas penuh p (x, y) disebut generatif karena dapat digunakan untuk menghasilkan data sedangkan model kondisional p (y | x) disebut diskriminatif karena tidak menentukan model probabilitas untuk p (x ) dan hanya dapat menghasilkan y diberikan x. Keduanya dapat diperkirakan dalam mode Bayesian.

Estimasi Bayesian secara inheren tentang menentukan model probabilitas penuh dan melakukan inferensi tergantung pada model dan data. Itu membuat banyak model Bayesian memiliki nuansa generatif. Namun bagi seorang Bayesian, perbedaan yang penting bukanlah tentang bagaimana menghasilkan data, tetapi lebih banyak tentang apa yang dibutuhkan untuk memperoleh distribusi posterior dari parameter-parameter yang tidak diketahui yang menarik.

Model diskriminatif p (y | x) adalah bagian dari model yang lebih besar di mana p (y, x) = p (y | x) p (x). Dalam banyak contoh, p (x) tidak relevan dengan distribusi posterior parameter dalam model p (y | x). Secara khusus, jika parameter p (x) berbeda dari p (y | x) dan prior adalah independen, maka model p (x) tidak berisi informasi tentang parameter yang tidak diketahui dari model kondisional p (y | x), jadi Bayesian tidak perlu memodelkannya.


Pada tingkat yang lebih intuitif, ada hubungan yang jelas antara "menghasilkan data" dan "menghitung distribusi posterior." Rubin (1984) memberikan uraian yang sangat baik tentang tautan ini:

masukkan deskripsi gambar di sini


Statistik Bayesian berguna mengingat data yang hilang terutama karena menyediakan cara terpadu untuk menghilangkan parameter gangguan - integrasi. Data yang hilang dapat dianggap sebagai (banyak) parameter gangguan. Proposal alternatif seperti memasukkan nilai yang diharapkan biasanya akan berkinerja buruk karena kami jarang dapat memperkirakan sel data yang hilang dengan tingkat akurasi yang tinggi. Di sini, integrasi lebih baik daripada maksimalisasi.

Model diskriminatif seperti p (y | x) juga menjadi bermasalah jika x menyertakan data yang hilang karena kami hanya memiliki data untuk memperkirakan p (y | x_obs) tetapi sebagian besar model yang masuk akal ditulis sehubungan dengan data lengkap p (y | x). Jika Anda memiliki model probabilitas penuh p (y, x) dan adalah Bayesian, maka Anda baik-baik saja karena Anda dapat mengintegrasikan data yang hilang seperti halnya jumlah yang tidak diketahui lainnya.


2

@ Christian: Semoga Anda tidak keberatan pengerjaan ulang jawaban saya karena saya sedang mengerjakan bagaimana membuat poin umum setransparan mungkin.

Bagi saya, yang utamawawasan dalam statistik adalah untuk mengkonseptualisasikan pengamatan berulang yang bervariasi - seperti yang dihasilkan oleh model yang menghasilkan probabilitas, seperti Normal (mu, sigma). Di awal tahun 1800, model-model penghasil probabilitas yang dihibur biasanya hanya untuk kesalahan pengukuran dengan peran parameter, seperti mu dan sigma dan prior bagi mereka yang kacau. Pendekatan Frequentist mengambil parameter sebagai tetap dan tidak diketahui sehingga model yang menghasilkan probabilitas kemudian hanya melibatkan pengamatan yang mungkin. Pendekatan Bayesian (dengan prior yang tepat) memiliki model yang menghasilkan probabilitas untuk parameter yang mungkin tidak diketahui dan pengamatan yang mungkin. Model-model penghasil probabilitas gabungan ini secara komprehensif mencakup semua - untuk membuatnya lebih umum - kemungkinan tidak diketahui (seperti parameter) dan yang diketahui (seperti pengamatan). Seperti pada tautan dari Rubin yang Anda berikan,

Ini sebenarnya sangat jelas digambarkan oleh Galton dalam quincunx dua tahap pada akhir 1800-an. Lihat gambar 5> Stigler, Stephen M. 2010. Darwin, Galton dan statistiknya

pencerahan. Jurnal Masyarakat Statistik Kerajaan: Seri A 173 (3): 469-482 . .

Ini setara tapi mungkin lebih transparan

posterior = prior (kemungkinan tidak diketahui | mungkin diketahui = dikenal)

dari posterior ~ prior (kemungkinan tidak diketahui) * p (mungkin diketahui = dikenal | mungkin tidak diketahui)

Tidak ada yang baru untuk nilai-nilai yang hilang di yang sebelumnya sebagai salah satu hanya menambahkan kemungkinan tidak diketahui untuk model probabilitas menghasilkan nilai-nilai yang hilang dan memperlakukan yang hilang hanya sebagai salah satu yang mungkin diketahui (yaitu pengamatan ke-3 hilang).

Baru-baru ini, perkiraan perhitungan Bayesian (ABC) telah mengambil pendekatan simulasi dua tahap yang konstruktif ini dengan serius ketika p (kemungkinan diketahui = diketahui | mungkin tidak diketahui) tidak dapat dikerjakan. Tetapi bahkan ketika ini dapat dikerjakan dan posterior mudah diperoleh dari pengambilan sampel MCMC (atau bahkan ketika posterior tersedia secara langsung karena konjugat sebelumnya). Poin Rubin tentang konstruksi pengambilan sampel dua tahap ini memungkinkan pemahaman yang lebih mudah, tidak boleh diabaikan.

Sebagai contoh, saya yakin itu akan menangkap apa yang dilakukan Zen di sini Bayesians: budak fungsi kemungkinan? karena seseorang perlu menggambar kemungkinan c yang tidak diketahui dari sebelumnya (tahap satu) dan kemudian menggambar kemungkinan diketahui (data) mengingat bahwa c (tahap 2) yang tidak akan menjadi generasi acak seperti p (mungkin dikenal | c) akan tidak menjadi probabilitas kecuali untuk satu dan hanya satu c.

Dari @Zen “Sayangnya, secara umum, ini bukan deskripsi yang valid dari model statistik. Masalahnya adalah bahwa, menurut definisi,fXsayaC(c) harus kepadatan probabilitas untuk hampir setiap nilai yang mungkinc, yang, secara umum, jelas salah. "

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.