Laplace smoothing dan Dirichlet sebelumnya


11

Pada artikel wikipedia tentang Laplace smoothing (atau aditif smoothing), dikatakan bahwa dari sudut pandang Bayesian,

ini sesuai dengan nilai yang diharapkan dari distribusi posterior, menggunakan distribusi Dirichlet simetris dengan parameter sebagai sebelumnya.α

Saya bingung bagaimana itu benar. Bisakah seseorang membantu saya memahami bagaimana kedua hal itu setara?

Terima kasih!

Jawaban:


10

Tentu. Ini pada dasarnya adalah pengamatan bahwa distribusi Dirichlet adalah konjugat sebelum distribusi multinomial. Ini berarti mereka memiliki bentuk fungsional yang sama. Artikel itu menyebutkannya, tetapi saya hanya akan menekankan bahwa ini mengikuti dari model pengambilan sampel multinomial. Jadi, turun ke sana ...

Pengamatan tentang posterior, jadi mari kita perkenalkan beberapa data, , yang merupakan jumlah item berbeda. Kami mengamati total sampel. Kita asumsikan diambil dari distribusi yang tidak diketahui (di mana kita akan meletakkan sebelum -simplex).xKN=i=1KxixπDir(α)K

Probabilitas posterior dari diberikan dan data adalahπαx

p(π|x,α)=p(x|π)p(π|α)

Kemungkinannya, , adalah distribusi multinomial. Sekarang mari kita menulis pdf:p(x|π)

p(x|π)=N!x1!xk!π1x1πkxk

dan

p(π|α)=1B(α)i=1Kπiα1

di mana . Mengalikan, kami menemukan bahwa,B(α)=Γ(α)KΓ(Kα)

p(π|α,x)=p(x|π)p(π|α)i=1Kπixi+α1.

Dengan kata lain, posterior juga Dirichlet. Pertanyaannya adalah tentang mean posterior. Karena posterior adalah Dirichlet, kita dapat menerapkan rumus untuk rata-rata Dirichlet untuk menemukan itu,

E[πi|α,x]=xi+αN+Kα.

Semoga ini membantu!


p(π|α,x)=p(x|π)p(π|α)/p(x|α), jadi bukankah salah untuk mengatakan bahwaMereka proporsional sehubungan dengan , tetapi menulis persamaan tidak benar saya pikir. p(π|α,x)=p(x|π)p(π|α)?π
michal

Saya bingung tentang ini untuk waktu yang lama, dan saya ingin membagikan realisasiku. Orang-orang ini memotivasi smoothing Laplace oleh Dirichlet menggunakan Posterior Mean, bukan MAP. Untuk kesederhanaan, asumsikan distribusi Beta (kasus paling sederhana dari Dirichlet) Rata-rata posterior adalah sedangkan MAP adalah . Jadi jika seseorang mengatakan dengan menambahkan 1 ke pembilang dan 2 ke penyebut, itu karena mereka menggunakan Posterior Mean. α+nsuccessα+β+nsuccess+nfailuresα+nsuccess1α+β+nsuccess+nfailures2α=β=1
RMurphy

0

Sebagai catatan tambahan, saya juga ingin menambahkan poin lain pada derivasi di atas, yang sebenarnya tidak menyangkut pertanyaan utama. Akan tetapi, berbicara tentang dirichlet tentang distribusi multinomial, saya pikir layak untuk menyebutkan bahwa apa yang akan menjadi bentuk fungsi kemungkinan jika kita akan mengambil probabilitas sebagai variabel gangguan.

Seperti yang ditunjukkan dengan benar oleh sydeulissie, sebanding dengan . Sekarang di sini saya ingin menghitung .p(π|α,x)i=1Kπixi+α1p(x|α)

p(x|α)=i=1Kp(x|πi,α)p(π|α)dπ1dπ2...dπK

Menggunakan identitas integral untuk fungsi gamma, kami memiliki:

p(x|α)=Γ(Kα)Γ(N+Kα)i=1KΓ(xi+α)Γ(α)

Derivasi di atas dari kemungkinan untuk data kategori mengusulkan cara yang lebih kuat untuk menangani data ini untuk kasus-kasus yang ukuran sampel tidak cukup besar.N

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.