Mengapa kemungkinan filter Kalman dihitung menggunakan hasil filter alih-alih hasil yang lebih halus?

11

Saya menggunakan filter Kalman dengan cara yang sangat standar. Sistem diwakili oleh persamaan keadaan dan persamaan observasi . $x_{t+1}=Fx_{t}+v_{t+1}$ $y_{t}=Hx_{t}+Az_{t}+w_{t}$

Buku ajar mengajarkan bahwa setelah menerapkan filter Kalman dan mendapatkan "prakiraan satu langkah ke depan" (atau "perkiraan terfilter"), kita harus menggunakannya untuk menghitung fungsi kemungkinan: $\hat{x}_{t|t-1}$

$f_{y_{t}|\mathcal{I}_{t-1},z_{t}}\left(y_{t}|\mathcal{I}_{t-1},z_{t}\right)=\det\left[2\pi\left(HP_{t|t-1}H^{\prime}+R\right)\right]^{-\frac{1}{2}}\exp\left\{ -\frac{1}{2}\left(y_{t}-H\hat{x}_{t|t-1}-Az_{t}\right)^{\prime}\left(HP_{t|t-1}H^{\prime}+R\right)^{-1}\left(y_{t}-H\hat{x}_{t|t-1}-Az_{t}\right)\right\}$

Pertanyaan saya adalah: Mengapa fungsi kemungkinan dihitung menggunakan "taksiran yang difilter" $\hat{x}_{t|t-1}$ dan bukan "estimasi yang dihaluskan" $\hat{x}_{t|T}$ ? Bukankah $\hat{x}_{t|T}$ perkiraan yang lebih baik dari vektor keadaan?

likelihood kalman-filter

— Gustavo Amarante
sumber

Saya mengedit judul untuk lebih informatif.

— Juho Kokkala

5

Untuk menjawab pertanyaan Anda: Anda dapat menggunakan kerapatan perataan. Tetapi Anda tidak harus melakukannya. Jawaban Jarle Tufto memiliki dekomposisi yang Anda gunakan. Tapi ada yang lain.

Menggunakan Rekursi Kalman

Di sini Anda mengevaluasi kemungkinan sebagai

f (y_{1}, \dots, y_{n}) = f (y_{1}) \prod_{i = 2}^{n} f (y_{i} | y_{1}, \dots, y_{i - 1}) .

$f(y_1, \ldots, y_n) = f(y_1)\prod_{i=2}^nf(y_i|y_1, \ldots, y_{i-1}).$

Namun, mean dan varians tidak selalu sepenuhnya mendefinisikan distribusi probabilitas secara umum. Berikut ini adalah dekomposisi yang Anda gunakan untuk pergi dari memfilter distribusi ke kemungkinan kondisional : $f(x_{i-1}|y_1,\ldots,y_{i-1})$ $f(y_i|y_1,\ldots,y_{i-1})$

\begin{matrix} (1) & f (y_{i} | y_{1}, \dots, y_{i - 1}) = \iint f (y_{i} | x_{i}) f (x_{i} | x_{i - 1}) f (x_{i - 1} | y_{1}, \dots, y_{i - 1}) d x_{i} d x_{i - 1} . \end{matrix}

$f(y_i|y_1, \ldots, y_{i-1}) = \iint f(y_i|x_i)f(x_i|x_{i-1})f(x_{i-1}|y_1, \ldots, y_{i-1})dx_{i} dx_{i-1} \tag{1}.$

Di sini adalah kepadatan transisi status ... bagian dari model, dan adalah densitas pengamatan ... bagian dari model lagi. Dalam pertanyaan Anda, Anda menulis ini sebagai dan masing-masing. Itu adalah hal yang sama. $f(x_i|x_{i-1})$ $f(y_i|x_i)$ $x_{t+1}=Fx_{t}+v_{t+1}$ $y_{t}=Hx_{t}+Az_{t}+w_{t}$

Ketika Anda mendapatkan distribusi prediksi keadaan satu langkah di depan, itu menghitung . Ketika Anda mengintegrasikan lagi, Anda memperoleh (1) sepenuhnya. Anda menuliskan kepadatan itu sepenuhnya dalam pertanyaan Anda, dan itu adalah hal yang sama. $\int f(x_i|x_{i-1})f(x_{i-1}|y_1, \ldots, y_{i-1}) dx_{i-1}$

Di sini Anda hanya menggunakan dekomposisi distribusi probabilitas, dan asumsi tentang model. Perhitungan kemungkinan ini adalah perhitungan yang tepat. Tidak ada kebijakan yang dapat Anda gunakan untuk melakukan ini dengan lebih baik atau lebih buruk.

Menggunakan Algoritma EM

Sepengetahuan saya, tidak ada cara lain untuk mengevaluasi kemungkinan secara langsung dalam model ruang keadaan seperti ini. Namun, Anda masih dapat melakukan estimasi kemungkinan maksimum dengan mengevaluasi fungsi yang berbeda: Anda dapat menggunakan algoritma EM. Pada langkah Ekspektasi (Langkah-E) Anda akan menghitung Di sini

\int f (x_{1}, \dots, x_{n} | y_{1}, \dots y_{n}) \log f (y_{1}, \dots, y_{n}, x_{1}, \dots, x_{n}) d x_{1 : n} = E_{s m o o t h} [\log f (y_{1}, \dots, y_{n}, x_{1}, \dots, x_{n})] .

$\int f(x_1, \ldots, x_n|y_1,\ldots y_n) \log f(y_1,\ldots,y_n,x_1, \ldots,x_n) dx_{1:n} = E_{smooth}[\log f(y_1,\ldots,y_n,x_1, \ldots,x_n)].$

f (y_{1}, \dots, y_{n}, x_{1}, \dots, x_{n})

$f(y_1,\ldots,y_n,x_1, \ldots,x_n)$ adalah "data lengkap" kemungkinan, dan Anda mengambil harapan log itu sehubungan dengan kepadatan smoothing bersama. Apa yang sering terjadi adalah bahwa, karena Anda mengambil log dari kemungkinan data lengkap ini, istilah-istilah tersebut dibagi menjadi jumlah, dan karena linearitas dari operator ekspektasi, Anda mengambil ekspektasi sehubungan dengan distribusi smoothing marginal (yang Anda sebutkan dalam pertanyaan Anda).

Hal-hal lain

Saya telah membaca di tempat-tempat bahwa EM adalah cara "lebih stabil" untuk memaksimalkan kemungkinan, tetapi saya tidak pernah benar-benar melihat poin ini diperdebatkan dengan baik, saya juga belum melihat kata "stabil" ini didefinisikan sama sekali, tetapi saya juga belum benar-benar memeriksa ini lebih jauh. Tak satu pun dari algoritma ini menyiasati cobaan maxima lokal / global. Saya pribadi cenderung menggunakan Kalman lebih sering hanya karena kebiasaan.

Memang benar bahwa perkiraan yang dihaluskan dari negara bagian memiliki varian yang lebih kecil daripada penyaringan, jadi saya kira Anda benar untuk memiliki beberapa intuisi tentang ini, tetapi Anda tidak benar-benar menggunakan negara. Kemungkinan Anda mencoba untuk memaksimalkan bukanlah fungsi dari negara.

— Taylor
sumber

Seberapa berbeda KF dan EM? Mereka akhirnya melakukan hal yang sama dengan cara yang hampir sama.

— Mitch

1

@Mitch itu mungkin sesuatu yang pantas lebih dari komentar. Ini akan tergantung pada pengoptimal tujuan umum apa yang Anda gunakan dengan KF, dan jenis EM apa yang Anda gunakan. Saya tidak akan terlalu yakin tanpa melihatnya.

— Taylor

7

Secara umum, berdasarkan aturan produk, kemungkinan tepatnya dapat ditulis Dari asumsi model state space, dapat disimpulkan bahwa vektor ekspektasi dan matriks varians dari setiap kondisi pada pengamatan sebelumnya dapat dinyatakan sebagai dan

f (y_{1}, \dots, y_{n}) = f (y_{1}) \prod_{i = 2}^{n} f (y_{i} | y_{1}, \dots, y_{i - 1}) .

$f(y_1,\dots,y_n)=f(y_1)\prod_{i=2}^n f(y_i|y_1,\dots,y_{i-1}).$

y_{i}

$y_i$

\begin{aligned} E (y_{i} | y_{1}, \dots, y_{i - 1}) & = E (H x_{t} + A z_{t} + w_{t} | y_{1}, \dots, y_{i - 1}) \\ = H E (x_{t} | y_{1}, \dots, y_{i - 1}) + A z_{t} + E w_{t} \\ = H {\hat{x}}_{t | t - 1} + A z_{t}, \end{aligned}

$\begin{align} E(y_i|y_1,\dots,y_{i-1}) &= E(Hx_{t}+Az_{t}+w_{t}|y_1,\dots,y_{i-1}) \\&= HE(x_{t}|y_1,\dots,y_{i-1})+Az_{t}+Ew_{t} \\&= H\hat x_{t|t-1}+Az_{t}, \end{align}$

\begin{aligned} V a r (y_{i} | y_{1}, \dots, y_{i - 1}) & = V a r (H x_{t} + A z_{t} + w_{t} | y_{1}, \dots, y_{i - 1}) \\ = H V a r (x_{t} | y_{1}, \dots, y_{i - 1}) H^{'} + V a r w_{t} \\ = H P_{t | t - 1} H^{'} + R . \end{aligned}

$\begin{align} \mathrm{Var}(y_i|y_1,\dots,y_{i-1}) &= \mathrm{Var}(Hx_{t}+Az_{t}+w_{t}|y_1,\dots,y_{i-1}) \\&= H\mathrm{Var}(x_{t}|y_1,\dots,y_{i-1})H'+ \mathrm{Var}w_t \\&= HP_{t|t-1}H'+R. \end{align}$ Jadi ini memberi Anda kemungkinan yang tepat tanpa menghitung estimasi yang dihaluskan.

Meskipun Anda tentu saja dapat menggunakan perkiraan yang dihaluskan yang memang merupakan perkiraan yang lebih baik dari negara bagian yang tidak dikenal, ini tidak akan memberi Anda fungsi kemungkinan. Akibatnya, Anda akan menggunakan nilai yang diamati dari untuk memperkirakan nilai yang diharapkan sendiri sehingga kemungkinan hal ini akan menyebabkan beberapa bias dalam estimasi yang dihasilkan. $y_i$

— Jarle Tufto
sumber

0

Saya pikir jawaban yang lebih baik untuk "mengapa" distribusi perataan tidak digunakan (biasanya) adalah efisiensi. Pada prinsipnya adalah langsung untuk menghitung kemungkinan marginal (menghaluskan) dalam arti tinggalkan satu sebagai berikut. Hapus pengamatan, jalankan Kalman lebih halus pada data yang tersisa. Kemudian evaluasi kemungkinan y (j) yang tidak terlihat. Ulangi ini untuk semua j. Ringkas kemungkinan log. Versi lebih cepat dari ini bekerja dengan blok (secara acak) sampel yang ditahan (seperti CV k-fold). Perhatikan bahwa skema ini memerlukan implementasi yang lebih umum dari filter / kalman Kalman yang secara sewenang-wenang dapat melewatkan pembaruan pengukuran jika diperlukan. Backward / smoothing pass tidak mengakses pengukuran (algoritma RTS) dan tetap sama.

Jika deret waktu "cukup lama" ada kemungkinan manfaat kecil dalam melakukan ini karena kemungkinan penyaringan "membakar" transien awalnya. Tetapi jika dataset pendek, kemungkinan smoothing yang lebih mahal mungkin sepadan. Fixed-lag smoother bisa menjadi solusi di antara keduanya.

— kayu tiga
sumber