Mensimulasikan posterior proses Gaussian

Untuk pertama kalinya (alasan ketidaktepatan / kesalahan) saya melihat proses Gaussian , dan lebih khusus lagi, menonton video ini oleh Nando de Freitas . Catatan tersedia online di sini .

Pada titik tertentu ia menggambar sampel acak dari normal multivariat yang dihasilkan dengan membuat matriks kovarians berdasarkan pada kernel Gaussian (eksponensial jarak kuadrat dalam sumbu ). Sampel acak ini membentuk plot halus sebelumnya yang menjadi kurang tersebar saat data tersedia. Pada akhirnya, tujuannya adalah untuk memprediksi dengan memodifikasi matriks kovarians, dan mendapatkan distribusi Gaussian bersyarat pada titik yang diinginkan. $10$ $x$

Seluruh kode tersedia pada ringkasan yang sangat baik oleh Katherine Bailey di sini , yang pada gilirannya akan memberikan repositori kode oleh Nando de Freitas di sini . Saya telah mempostingnya kode Python di sini untuk kenyamanan.

Ini dimulai dengan (bukan atas) fungsi sebelumnya, dan memperkenalkan "parameter tuning". $3$ $10$

Saya telah menerjemahkan kode ke Python dan [R] , termasuk plot:

Berikut adalah potongan kode pertama dalam [R] dan plot yang dihasilkan dari tiga kurva acak yang dihasilkan melalui kernel Gaussian berdasarkan kedekatan pada nilai dalam set tes: $x$

The potongan kedua kode R adalah hairier, dan dimulai dengan mensimulasikan empat poin data pelatihan, yang pada akhirnya akan membantu mempersempit penyebaran di antara kemungkinan kurva (sebelum) sekitar wilayah di mana titik data pelatihan tersebut berbohong. Simulasi nilai untuk titik data ini adalah sebagai fungsi . Kita bisa melihat "pengetatan kurva di sekitar titik": $y$ $\text{sin}()$

The potongan ketiga kode R penawaran dengan memplot kurva rata nilai estimasi (setara dengan kurva regresi), sesuai dengan nilai-nilai (lihat perhitungan di bawah ini), dan interval kepercayaan mereka: $50$ ${\bf\mu}$

PERTANYAAN: Saya ingin meminta penjelasan tentang operasi yang terjadi ketika pergi dari GP sebelumnya ke posterior.

Secara khusus, saya ingin memahami bagian ini dari kode R (dalam potongan kedua) untuk mendapatkan sarana dan sd:

# Apply the kernel function to our training points (5 points):

K_train = kernel(Xtrain, Xtrain, param)                          #[5 x 5] matrix

Ch_train = chol(K_train + 0.00005 * diag(length(Xtrain)))        #[5 x 5] matrix

# Compute the mean at our test points:

K_trte = kernel(Xtrain, Xtest, param)                            #[5 x 50] matrix
core = solve(Ch_train) %*% K_trte                                #[5 x 50] matrix
temp = solve(Ch_train) %*% ytrain                                #[5 x 1] matrix
mu = t(core) %*% temp                                            #[50 x 1] matrix

Ada dua kernel (satu kereta ( ) v. Kereta ( ),, sebut saja , dengan Cholesky ( ), , mewarnai oranye semua Cholesky dari sini, dan yang kedua dari kereta ( ) v test ( ),, sebut saja ), dan untuk menghasilkan estimasi cara untuk poin dalam set pengujian, operasinya adalah: $\bf a$ $\bf a$ K_train $\bf \Sigma_{aa}$ Ch_train $\bf \color{orange}{L_{aa}}$ $\bf a$ $\bf e$ K_trte $\bf \Sigma_{ae}$ $\hat \mu$ $50$

\begin{aligned} (Eq.1) & \hat{μ} & = {[\underset{[5 \times 5]}{{L_{a a}}^{- 1}} \underset{[5 \times 50]}{Σ_{a e}}]}^{T} \underset{[5 \times 5]}{{L_{a a}}^{- 1}} \underset{[5 \times 1]}{y_{t r}} \\ dimensions = [50 \times 1] \end{aligned}

$\begin{align} {\bf \hat \mu}&={\bf \left [ \underset{\color{blue}{[5 \times 5]}} {\color{orange}{L_{aa}}^{-1}}\, \, \, \underset{\color{blue}{[5 \times 50]}}{\Sigma_{ae}} \right ]^T \, \underset{\color{blue}{[5 \times 5]}}{\color{orange}{L_{aa}}^{-1}} \, \underset{\color{blue}{[5 \times 1]}}{y_{tr}}}\bf\tag{Eq.1}\\ &\text{dimensions}=\color{red}{\left[50 \times 1\right]} \end{align}$

# Compute the standard deviation:

tempor = colSums(core^2)                                          #[50 x 1] matrix

# Notice that all.equal(diag(t(core) %*% core), colSums(core^2)) TRUE

s2 = diag(K_test) - tempor                                        #[50 x 1] matrix
stdv = sqrt(s2)                                                   #[50 x 1] matrix

\begin{aligned} (Eq.2) & \hat{var} & = diag (Σ_{e e}) - diag [{[\underset{[5 \times 5]}{{L_{a a}}^{- 1}} \underset{[5 \times 50]}{Σ_{a e}}]}^{T} [\underset{[5 \times 5]}{{L_{a a}}^{- 1}} \underset{[5 \times 50]}{Σ_{a e}}]] \\ = d [\begin{matrix} 1 & \dots \\ 1 \\ ⋱ \\ \dots & 1 \\ \dots & 1 \end{matrix}] - d [{[\underset{[5 \times 5]}{{L_{a a}}^{- 1}} \underset{[5 \times 50]}{Σ_{a e}}]}^{T} [\underset{[5 \times 5]}{{L_{a a}}^{- 1}} \underset{[5 \times 50]}{Σ_{a e}}]] \\ dimensions = [50 \times 1] \end{aligned}

$\begin{align} {\bf \hat{\text{var}}}&=\text{diag}\left({\bf \Sigma_{ee}}\right)-\text{diag} \left[\bf \left[ \underset{\color{blue}{[5 \times 5]}} {\color{orange}{L_{aa}}^{-1}}\, \, \, \underset{\color{blue}{[5 \times 50]}}{\Sigma_{ae}} \right]^T \left[ \underset{\color{blue}{[5 \times 5]}} {\color{orange}{L_{aa}}^{-1}}\, \, \, \underset{\color{blue}{[5 \times 50]}}{\Sigma_{ae}} \right] \right] \bf \tag{ Eq.2} \\ &=\text{d}\small{\begin{bmatrix}1&&\dots&\\&1\\&&\ddots\\&&\dots&1&\\ &&&\dots&1\end{bmatrix}}-\bf \text{d} \left[ \left[ \underset{\color{blue}{[5 \times 5]}} {\color{orange}{L_{aa}}^{-1}}\, \, \, \underset{\color{blue}{[5 \times 50]}}{\Sigma_{ae}} \right]^T \left[ \underset{\color{blue}{[5 \times 5]}} {\color{orange}{L_{aa}}^{-1}}\, \, \, \underset{\color{blue}{[5 \times 50]}}{\Sigma_{ae}} \right] \right]\\ &\text{dimensions} = \color{red}{\left[50 \times 1\right]} \end{align}$

Bagaimana cara kerjanya?

Juga tidak jelas, apakah perhitungan untuk garis warna (Posterior GP) di plot " Tiga sampel dari posterior GP " di atas, di mana Cholesky dari set pengujian dan pelatihan tampaknya bersatu untuk menghasilkan nilai normal multivariat, akhirnya ditambahkan ke : $\hat \mu$

Ch_post_gener = chol(K_test + 1e-6 * diag(n) - (t(core) %*% core))
m_prime = matrix(rnorm(n * 3), ncol = 3)
sam = Ch_post_gener %*% m_prime
f_post = as.vector(mu) + sam

\begin{aligned} (Eq.3) & f_{post} & = \hat{μ} + [\underset{[50 \times 50]}{L_{e e}} - [{[\underset{[5 \times 5]}{{L_{a a}}^{- 1}} \underset{[5 \times 50]}{Σ_{a e}}]}^{T} [\underset{[5 \times 5]}{{L_{a a}}^{- 1}} \underset{[5 \times 50]}{Σ_{a e}}]]] [\underset{[50 \times 3]}{N (0, 1)}] \\ dimensions = [50 \times 3] \end{aligned}

$\begin{align} f_{\text{post}}&=\bf \hat \mu +\small \left[ \underset{\color{blue}{[50 \times 50]}} {\color{orange}{L_{ee}}}\, \, \, - \left[ \left[ \underset{\color{blue}{[5 \times 5]}} {\color{orange}{L_{aa}}^{-1}}\, \, \, \underset{\color{blue}{[5 \times 50]}}{\Sigma_{ae}} \right]^T \left[ \underset{\color{blue}{[5 \times 5]}} {\color{orange}{L_{aa}}^{-1}}\, \, \, \underset{\color{blue}{[5 \times 50]}}{\Sigma_{ae}} \right] \right] \right] \left[\underset{\color{green}{[50 \times 3]}}{\mathscr N(0,1)}\right]\tag{Eq.3} \\ &\text{dimensions}= \color{red}{\left[50 \times 3\right]} \end{align}$

— Antoni Parellada
sumber

Dalam plot terakhir, bukankah seharusnya interval kepercayaan "mencubit" pada poin yang diketahui?

— GeoMatt22

@ GeoMatt22 Mereka semacam itu, bukan begitu?

— Antoni Parellada

Ketika diberikan satu set tes, , nilai-nilai yang diharapkan akan dihitung dengan mempertimbangkan distribusi kondisional dari nilai fungsi untuk titik-titik data baru ini, mengingat titik-titik data dalam set pelatihan, . Gagasan yang diungkapkan dalam video adalah bahwa kita akan memiliki distribusi bersama dan (dalam ceramah yang dilambangkan dengan tanda bintang, ) dari bentuk: $e$ $a$ $a$ $e$ $*$

[\begin{matrix} a \\ e \end{matrix}] \sim N ([\begin{matrix} μ_{a} \\ μ_{e} \end{matrix}], [\begin{matrix} Σ_{a a} & Σ_{a e} \\ {Σ_{a e}}^{T} & Σ_{e e} \end{matrix}])

${\bf\begin{bmatrix} a\\ \bf e\end{bmatrix}}\sim \mathscr N\left( \begin{bmatrix}\bf \mu_a\\\mu_e \end{bmatrix}\,,\begin{bmatrix}\bf \Sigma_{aa}&\bf \Sigma_{ae} \\ {\bf \Sigma_{ae}}^T & \bf \Sigma_{ee}\end{bmatrix}\right)$ .

The bersyarat dari distribusi Gaussian multivariat memiliki mean . Sekarang, mengingat bahwa baris pertama dari matriks blok kovariansi di atas adalah untuk , tetapi hanya untuk , wasiat yang dialihkan diperlukan untuk membuat matriks kongruen di: $E({\bf x}_1 | {\bf x}_2)= {\boldsymbol \mu}_1 + \Sigma_{12} \Sigma^{-1}_{22} ({\bf x}_2- {\boldsymbol \mu}_2)$ $[50 \times 50]$ $\bf \Sigma_{aa}$ $[50 \times 5]$ $\bf \Sigma_{ae}$

E (e | a) = μ_{e} + {Σ_{a e}}^{T} {Σ_{a a}}^{- 1} (y - μ_{a})

$E ({\bf e\vert a}) = {\bf \mu_e} + {\bf \Sigma_{ae}}^T {\bf \Sigma_{aa}}^{-1}\,\left ({\bf y}-{\bf \mu_{a}}\right)$ Karena model ini direncanakan dengan , rumus disederhanakan dengan baik menjadi :

μ_{a} = μ_{e} = 0

${\bf \mu_{a}} = {\bf \mu_{e}}=0$

E (e | a) = {Σ_{a e}}^{T} {Σ_{a a}}^{- 1} y_{t r}

$E ({\bf e\vert a}) = {\bf \Sigma_{ae}}^T {\bf \Sigma_{aa}}^{-1}\,{\bf y_{tr}}$

Masukkan dekomposisi Cholesky (yang lagi-lagi saya akan kode oranye seperti di OP):

\begin{aligned} E (e | a) & = {Σ_{a e}}^{T} \underset{< - - α - - >}{{Σ_{a a}}^{- 1} y_{t r}} \\ = {Σ_{a e}}^{T} {(L_{a a} L_{a a}^{T})}^{- 1} y_{t r} \\ = {Σ_{a e}}^{T} L_{a a}^{- T} L_{a a}^{- 1} y_{t r} \\ (*) & = {Σ_{a e}}^{T} L_{a a}^{- T} \underset{< - m - >}{L_{a a}^{- 1} y_{t r}} \end{aligned}

$\begin{align*} E ({\bf e\vert a}) &= {\bf \Sigma_{ae}}^T\,\, \,\underset{\color{gray}{<--\alpha-->}}{{\bf \Sigma_{aa}}^{-1}\,{\bf y_{tr}}}\\ &={\bf \Sigma_{ae}}^T {\bf \color{orange}{(L_{aa}L_{aa}^T)}}^{-1}\,{\bf y_{tr}}\\ &= {\bf \Sigma_{ae}}^T {\bf \color{orange}{L_{aa}^{-T}L_{aa}^{-1}}}\,{\bf y_{tr}}\\ &= {\bf \Sigma_{ae}}^T {\bf \color{orange}{L_{aa}^{-T}}\,\,\,\,\,\, \underset {\color{gray}{ <-m->}}{\color{orange}{L_{aa}^{-1}}{\bf y_{tr}}}} \tag {*} \end{align*}$

Jika , maka , dan kita berakhir dengan sistem linear yang dapat kita selesaikan, memperoleh . Inilah slide kunci dalam presentasi asli: $\bf m =\color{orange}{{\bf L_{aa}}^{-1}}\,{\bf y_{tr}}$ $\color{orange}{\bf L_{aa}} \bf m= {\bf y_{tr}}$ $\bf m$

Karena , Persamaan. (*) adalah setara dengan persamaan (1) dalam OP: $\bf B^T A^T = (A\,B)^T$

\begin{aligned} \hat{μ} & = {[\underset{[5 \times 5]}{{L_{a a}}^{- 1}} \underset{[5 \times 50]}{Σ_{a e}}]}^{T} \underset{[5 \times 5]}{{L_{a a}}^{- 1}} \underset{[5 \times 1]}{y_{t r}} \\ = (Σ_{a e}^{T} L_{a a}^{- T}) (L_{a a}^{- 1} y_{t r}) \\ dimensions = [50 \times 1] \end{aligned}

$\begin{align} {\bf \hat \mu}&={\bf \left [ \underset{\color{blue}{[5 \times 5]}} {\color{orange}{L_{aa}}^{-1}}\, \, \, \underset{\color{blue}{[5 \times 50]}}{\Sigma_{ae}} \right ]^T \, \underset{\color{blue}{[5 \times 5]}}{\color{orange}{L_{aa}}^{-1}} \, \underset{\color{blue}{[5 \times 1]}}{y_{tr}}}\\ &=\bf \left( \Sigma_{ae}^T \color{orange}{ L_{aa}^{-T}} \right) \left(\color{orange}{ L_{aa}^{-1}}\, y_{tr} \right)\\ &\text{dimensions} = \color{red}{\left[50 \times 1\right]} \end{align}$

mengingat bahwa

{[\underset{[5 \times 5]}{{L_{a a}}^{- 1}} \underset{[5 \times 50]}{Σ_{a e}}]}^{T} = {\underset{[50 \times 5]}{Σ_{a e}}}^{T} \underset{[5 \times 5]}{{L_{a a}}^{- 1 T}}

$\bf \left [ \underset{\color{blue}{[5 \times 5]}} {\color{orange}{L_{aa}}^{-1}}\, \, \, \underset{\color{blue}{[5 \times 50]}}{\Sigma_{ae}} \right ]^T = \underset{\color{blue}{[50 \times 5]}}{\Sigma_{ae}}^T \underset{\color{blue}{[5 \times 5]}} {\color{orange}{L_{aa}}^{-1T}}\, \, \,$

Alasan yang serupa akan diterapkan pada varians, dimulai dengan rumus untuk varian bersyarat dalam Gaussian multivarian:

v a r (x_{1} | x_{2}) = Σ_{11} - Σ_{12} Σ_{22}^{- 1} Σ_{21}

${\rm var}({\bf x}_1|{\bf x}_2)= \Sigma_{11} -\Sigma_{12}\Sigma^{-1}_{22}\Sigma_{21}$

yang dalam kasus kami adalah:

\begin{aligned} {var}_{{\hat{μ}}_{e}} & = Σ_{e e} - Σ_{a e}^{T} Σ_{a a}^{- 1} Σ_{a e} \\ = Σ_{e e} - Σ_{a e}^{T} {[L_{a a} L_{a a}^{T}]}^{- 1} Σ_{a e} \\ = Σ_{e e} - Σ_{a e}^{T} {[L_{a a}^{- 1}]}^{T} L_{a a}^{- 1} Σ_{a e} \\ = Σ_{e e} - {[L_{a a}^{- 1} Σ_{a e}]}^{T} L_{a a}^{- 1} Σ_{a e} \end{aligned}

$\begin{align*} \bf \text{var}_{\hat\mu_{\bf e}} &= \bf \Sigma_{ee} - \Sigma_{ae}^T\Sigma_{aa}^{-1}\Sigma_{ae}\\ &= \bf \Sigma_{ee} - \Sigma_{ae}^T \left[ L_{aa}L_{aa}^T\right]^{-1}\Sigma_{ae}\\ &= \bf \Sigma_{ee} - \Sigma_{ae}^T \left[ L_{aa}^{-1}\right]^TL_{aa}^{-1}\Sigma_{ae}\\ &= \bf \Sigma_{ee} - \left[ L_{aa}^{-1} \Sigma_{ae}\right]^T L_{aa}^{-1}\Sigma_{ae} \end{align*}$

dan tiba di Persamaan (2):

\begin{aligned} {var}_{{\hat{μ}}_{e}} & = d [K_{e e} - {[\underset{[5 \times 5]}{{L_{a a}}^{- 1}} \underset{[5 \times 50]}{Σ_{a e}}]}^{T} [\underset{[5 \times 5]}{{L_{a a}}^{- 1}} \underset{[5 \times 50]}{Σ_{a e}}]] \\ dimensions = [50 \times 1] \end{aligned}

$\begin{align} \text{var}_{\hat\mu_{\bf e}}&=\text{d}\left[ \bf K_{ee} - \left[ \underset{\color{blue}{[5 \times 5]}} {\color{orange}{L_{aa}}^{-1}}\, \, \, \underset{\color{blue}{[5 \times 50]}}{\Sigma_{ae}} \right]^T \left[ \underset{\color{blue}{[5 \times 5]}} {\color{orange}{L_{aa}}^{-1}}\, \, \, \underset{\color{blue}{[5 \times 50]}}{\Sigma_{ae}} \right] \right]\\ &\text{dimensions}=\color{red}{\left[50 \times 1\right]} \end{align}$

Kita dapat melihat bahwa Persamaan (3) dalam OP adalah cara untuk menghasilkan kurva acak posterior yang bergantung pada data (set pelatihan), dan memanfaatkan formulir Cholesky untuk menghasilkan tiga undian acak multivariat yang normal :

\begin{aligned} f_{post} & = \hat{μ} + [{var}_{{\hat{μ}}_{e}}] [rnorm \sim (0, 1)] \\ = \hat{μ} + [\underset{[50 \times 50]}{L_{e e}} - [{[\underset{[5 \times 5]}{{L_{a a}}^{- 1}} \underset{[5 \times 50]}{Σ_{a e}}]}^{T} [\underset{[5 \times 5]}{{L_{a a}}^{- 1}} \underset{[5 \times 50]}{Σ_{a e}}]]] [\underset{[50 \times 3]}{rand.norm's}] \\ dimensions = [50 \times 3] \end{aligned}

$\begin{align} f_{\text{post}} &= {\bf \hat \mu} + \left[ \text{var}_{\hat\mu_{\bf e}}\right][\text{rnorm}\sim (0,1)]\\ &=\bf \hat \mu + \left[ \underset{\color{blue}{[50 \times 50]}} {\color{orange}{L_{ee}}}\, \, \, - \left[ \left[ \underset{\color{blue}{[5 \times 5]}} {\color{orange}{L_{aa}}^{-1}}\, \, \, \underset{\color{blue}{[5 \times 50]}}{\Sigma_{ae}} \right]^T \left[ \underset{\color{blue}{[5 \times 5]}} {\color{orange}{L_{aa}}^{-1}}\, \, \, \underset{\color{blue}{[5 \times 50]}}{\Sigma_{ae}} \right] \right] \right] \left[\underset{\color{green}{[50 \times 3]}}{\text{rand.norm's}}\right]\\ &\text{dimensions}= \color{red}{\left[50 \times 3\right]} \end{align}$

— Antoni Parellada
sumber

Apakah ini dari buku atau kertas? Apakah Anda memiliki cara yang kuat untuk menghitung mean dan varians bersyarat ketika matriks kovarians sangat dikondisikan (tetapi tanpa menghapus atau menggabungkan titik data yang hampir bergantung (terdekat)) dalam presisi ganda? Multi-presisi dalam perangkat lunak berfungsi, tetapi memiliki 2,5 hingga 3 perintah pelambatan magnitudo vs. hardware Double Precision, sehingga bahkan algoritma presisi ganda "lambat" pun akan baik. Saya tidak berpikir Cholesky memotongnya. Saya tidak berpikir bahkan QR juga baik ketika matriks kovarians sangat buruk. Menggunakan backsolves standar, tampaknya membutuhkan presisi tertutup.

— Mark L. Stone