(Jawaban ini menggunakan tautan kedua yang Anda berikan.)
Ingat definisi kemungkinan:
di mana dalam kasus kami adalah penaksir untuk probabilitas bahwa koin A dan B masing-masing memiliki kepala, sebagai hasil percobaan kami, masing-masing terdiri dari 10 flips, dan
menjadi koin yang digunakan dalam setiap percobaan.θ = ( θ A , θ B ) X = ( X 1 , ... , X 5 ) X i Z = ( Z 1 , ... , Z 5 )
L[θ|X]=Pr[X|θ]=∑ZPr[X,Z|θ]
θ=(θA,θB)X=(X1,…,X5)XiZ=(Z1,…,Z5)
Kami ingin menemukan penaksir kemungkinan maksimum . Algoritma Expectation-Maximization (EM) adalah salah satu metode untuk menemukan (setidaknya lokal) . Ia bekerja dengan menemukan ekspektasi bersyarat, yang kemudian digunakan untuk memaksimalkan . Idenya adalah bahwa dengan terus mencari lebih mungkin (yaitu lebih mungkin)
di setiap iterasi kita akan terus meningkatkan yang pada gilirannya, meningkatkan fungsi kemungkinan. Ada tiga hal yang perlu dilakukan sebelum maju merancang algoritma berbasis EM. q qqPr[X,Z| θ]θ^θ^θθPr[X,Z|θ]
- Bangun model
- Hitung Harapan Bersyarat di bawah model (E-Step)
- Maksimalkan kemungkinan kami dengan memperbarui perkiraan kami saat ini (Langkah-M)θ
Bangun Model
Sebelum kita melangkah lebih jauh dengan EM kita perlu mencari tahu apa sebenarnya yang kita komputasi. Pada langkah-E kita menghitung persis nilai yang diharapkan untuk . Jadi, apa nilai ini? Perhatikan bahwa
Alasannya adalah karena kami memiliki 5 percobaan untuk diperhitungkan, dan kami tidak tahu koin apa yang digunakan di masing-masing. Ketidaksamaan ini disebabkan olehlog Pr [ X , Z | θ ]catatanPr [ X, Z| θ]catatan
catatanPr [ X, Z| θ]=∑i=15log∑C∈{A,B}Pr[Xi,Zi=C|θ]=∑i=15log∑C∈{A,B}Pr[Zi=C|Xi,θ]⋅Pr[Xi,Zi=C|θ]Pr[Zi=C|Xi,θ]≥∑i=15∑C∈{A,B}Pr[Zi=C|Xi,θ]⋅logPr[Xi,Zi=C|θ]Pr[Zi=C|Xi,θ].
catatanmenjadi cekung dan menerapkan ketimpangan Jensen. Alasan kita membutuhkan batas bawah adalah bahwa kita tidak dapat secara langsung menghitung arg max dengan persamaan aslinya. Namun kita dapat menghitungnya untuk batas bawah akhir.
Sekarang apa itu ? Ini adalah probabilitas bahwa kita melihat koin diberikan percobaan dan . Menggunakan probabilitas bersyarat yang kami miliki,C X i θ Pr [ Z i = C | X i , θ ] = Pr [ X i , Z i = C | θ ]Pr [ Zsaya= C| Xsaya, θ ]CXsayaθ
Pr [Zsaya=C|Xsaya, θ ] = Pr [ Xsaya, Zsaya= C| θ]Pr [ Xsaya| θ].
Meskipun kami telah membuat beberapa kemajuan, kami belum selesai dengan modelnya. Berapa probabilitas bahwa koin yang diberikan membalik urutan ? Membiarkan
Sekarang adalah jelas hanya probabilitas di bawah kedua kemungkinan atau . Karena kita miliki,
h i = # kepala di X i Pr [ X i , Z i = C | θ ] = 1Xsayahsaya= # kepala di Xsaya
Pr[Xi| θ]Zi=AZi=BPr[Zi=A]=Pr[Zi=B]=1/2
Pr [ Xsaya, Zsaya= C| θ]= 12⋅ θhsayaC( 1 - θC)10 - hsaya, untuk C ∈ { A , B } .
Pr [ Xsaya| θ]Zsaya= AZsaya= BPr [ Zsaya= A ] = Pr [ Zsaya= B ] = 1 / 2Pr [ Xsaya| θ]=1 / 2⋅(Pr[ Xsaya| Zsaya=A,θ]+Pr[Xi|Zi=B,θ]).
E-Step
Oke ... itu tidak terlalu menyenangkan tetapi kita dapat mulai melakukan beberapa pekerjaan EM sekarang. Algoritma EM dimulai dengan membuat beberapa tebakan acak untuk . Dalam contoh ini kita memiliki . Kami menghitung
Nilai ini sejalan dengan apa yang ada di kertas. Sekarang kita dapat menghitung jumlah kepala yang diharapkan dalam dari koin ,
Melakukan hal yang sama untuk koin kita dapatkan,
θ 0 = ( 0,6 , 0,5 ) Pr [ Z 1 = A | X 1 , θ ] = 1 / 2 ⋅ ( 0,6 5 ⋅ 0,4 5 )θθ0=(0.6,0.5)
Pr[Z1=A|X1,θ]=1/2⋅(0.65⋅0.45)1/2⋅((0.65⋅0.45)+(0.55⋅0.55))≈0.45.
X1=(H,T,T,T,H,H,T,H,T,H)AE[#heads by coin A|X1,θ]=h1⋅Pr[Z1=A|X1,θ]=5⋅0.45≈2.2.
BE[#heads by coin B|X1,θ]=h1⋅Pr[Z1=B|X1,θ]=5⋅0.55≈2.8.
Kami dapat menghitung jumlah ekor yang sama dengan mengganti dengan . Ini berlanjut untuk semua nilai dan . Berkat linearitas ekspektasi, kita dapat mengetahui
h110−h1Xihi 1≤i≤5E[#heads by coin A|X,θ]=∑i=15E[#heads by coin A|Xi,θ]
M-Step
Dengan nilai yang kami perkirakan, kini hadir langkah M di mana kami ingin memaksimalkan
mengingat nilai yang kami harapkan. Ini dilakukan dengan normalisasi sederhana!
Demikian juga untuk . Proses ini dimulai lagi dengan E-Step dan dan berlanjut sampai nilai-nilai untuk bertemu (atau ke beberapa ambang batas yang diijinkan). Dalam contoh ini kita memiliki 10 iterasi dan . Dalam setiap iterasi, nilai
meningkat, karena perkiraan yang lebih baik dariθ
θ1A=E[#heads over X by coin A|X,θ]E[ # kepala dan ekor di atas X dengan koin A | X, θ ]= 21,321,3 + 9,6≈ 0.71.
Bθ1θθ^= θ10= ( 0,8 , 0,52 )Pr [ X, Z| θ]θ .
Sekarang dalam kasus ini modelnya cukup sederhana. Hal-hal dapat menjadi jauh lebih rumit dengan cukup cepat, namun algoritma EM akan selalu menyatu, dan akan selalu menghasilkan estimator kemungkinan maksimum maksimum . Mungkin merupakan penaksir lokal , tetapi untuk menyiasatinya kita bisa memulai kembali proses EM dengan inisialisasi yang berbeda. Kita dapat melakukan ini dalam jumlah yang konstan dan mempertahankan hasil terbaik (yaitu, mereka yang memiliki kemungkinan akhir tertinggi).θ^