Untuk menjawab pertanyaan Anda: Anda dapat menggunakan kerapatan perataan. Tetapi Anda tidak harus melakukannya. Jawaban Jarle Tufto memiliki dekomposisi yang Anda gunakan. Tapi ada yang lain.
Menggunakan Rekursi Kalman
Di sini Anda mengevaluasi kemungkinan sebagai
f(y1,…,yn)=f(y1)∏i=2nf(yi|y1,…,yi−1).
Namun, mean dan varians tidak selalu sepenuhnya mendefinisikan distribusi probabilitas secara umum. Berikut ini adalah dekomposisi yang Anda gunakan untuk pergi dari memfilter distribusi ke kemungkinan kondisional :f(xi−1|y1,…,yi−1)f(yi|y1,…,yi−1)
f(yi|y1,…,yi−1)=∬f(yi|xi)f(xi|xi−1)f(xi−1|y1,…,yi−1)dxidxi−1.(1)
Di sini adalah kepadatan transisi status ... bagian dari model, dan adalah densitas pengamatan ... bagian dari model lagi. Dalam pertanyaan Anda, Anda menulis ini sebagai dan masing-masing. Itu adalah hal yang sama.f(xi|xi−1)f(yi|xi)xt+1=Fxt+vt+1yt=Hxt+Azt+wt
Ketika Anda mendapatkan distribusi prediksi keadaan satu langkah di depan, itu menghitung . Ketika Anda mengintegrasikan lagi, Anda memperoleh (1) sepenuhnya. Anda menuliskan kepadatan itu sepenuhnya dalam pertanyaan Anda, dan itu adalah hal yang sama.∫f(xi|xi−1)f(xi−1|y1,…,yi−1)dxi−1
Di sini Anda hanya menggunakan dekomposisi distribusi probabilitas, dan asumsi tentang model. Perhitungan kemungkinan ini adalah perhitungan yang tepat. Tidak ada kebijakan yang dapat Anda gunakan untuk melakukan ini dengan lebih baik atau lebih buruk.
Menggunakan Algoritma EM
Sepengetahuan saya, tidak ada cara lain untuk mengevaluasi kemungkinan secara langsung dalam model ruang keadaan seperti ini. Namun, Anda masih dapat melakukan estimasi kemungkinan maksimum dengan mengevaluasi fungsi yang berbeda: Anda dapat menggunakan algoritma EM. Pada langkah Ekspektasi (Langkah-E) Anda akan menghitung
Di sini
∫f(x1,…,xn|y1,…yn)logf(y1,…,yn,x1,…,xn)dx1:n=Esmooth[logf(y1,…,yn,x1,…,xn)].
f(y1,…,yn,x1,…,xn)adalah "data lengkap" kemungkinan, dan Anda mengambil harapan log itu sehubungan dengan kepadatan smoothing bersama. Apa yang sering terjadi adalah bahwa, karena Anda mengambil log dari kemungkinan data lengkap ini, istilah-istilah tersebut dibagi menjadi jumlah, dan karena linearitas dari operator ekspektasi, Anda mengambil ekspektasi sehubungan dengan distribusi smoothing marginal (yang Anda sebutkan dalam pertanyaan Anda).
Hal-hal lain
Saya telah membaca di tempat-tempat bahwa EM adalah cara "lebih stabil" untuk memaksimalkan kemungkinan, tetapi saya tidak pernah benar-benar melihat poin ini diperdebatkan dengan baik, saya juga belum melihat kata "stabil" ini didefinisikan sama sekali, tetapi saya juga belum benar-benar memeriksa ini lebih jauh. Tak satu pun dari algoritma ini menyiasati cobaan maxima lokal / global. Saya pribadi cenderung menggunakan Kalman lebih sering hanya karena kebiasaan.
Memang benar bahwa perkiraan yang dihaluskan dari negara bagian memiliki varian yang lebih kecil daripada penyaringan, jadi saya kira Anda benar untuk memiliki beberapa intuisi tentang ini, tetapi Anda tidak benar-benar menggunakan negara. Kemungkinan Anda mencoba untuk memaksimalkan bukanlah fungsi dari negara.