Memahami Regresi Proses Gaussian melalui tampilan fungsi basis dimensi tak terbatas

Sering dikatakan bahwa regresi proses gaussian berhubungan (GPR) dengan regresi linier bayesian dengan (kemungkinan) jumlah tak terbatas fungsi basis. Saat ini saya mencoba memahami ini secara detail untuk mendapatkan intuisi untuk model seperti apa yang dapat saya ungkapkan menggunakan GPR.

Apakah Anda berpikir bahwa ini adalah pendekatan yang baik untuk mencoba memahami GPR?

Dalam buku Gaussian Processes for Machine learning Rasmussen dan Williams menunjukkan bahwa himpunan proses gaussian yang dijelaskan oleh kernel kuadrat eksponensial parameterised

k (x, x^{'}; l) = σ_{hal}^{2} \exp (- \frac{(x - x)^{2}}{2 l^{2}})

$k(x,x';l)= \sigma_p^2\exp\left(-\frac{(x-x)^2}{2l^2}\right)$ dapat secara ekuivalen digambarkan sebagai regresi bayesian dengan keyakinan sebelumnya

w \sim N (0, σ_{p}^{2} I)

$w \sim \mathcal{N}(0,\sigma_p^2 I)$ pada bobot dan jumlah tak terbatas dari fungsi dasar dari bentuk

ϕ_{c} (x; l) = \exp (- \frac{(x - c)^{2}}{2 l^{2}})

$\phi_c(x;l)=\exp\left(-\frac{(x-c)^2}{2l^2}\right)$ Dengan demikian, parameterisasi kernel dapat dengan sepenuhnya diterjemahkan menjadi parameterisasi fungsi dasar.

Dapatkah parameterisasi kernel terdiferensiasi selalu diterjemahkan ke dalam parameterisasi fungsi sebelumnya dan basis atau adakah kernel terdiferensiasi di mana mis. Jumlah fungsi basis tergantung pada konfigurasi?

Pemahaman saya sejauh ini adalah bahwa untuk fungsi kernel tetap k (x, x ') Teorema Mercer memberi tahu kita bahwa dapat dinyatakan sebagai mana adalah fungsi baik ke dalam real atau bilangan kompleks. Jadi, untuk kernel yang diberikan model regresi bayesian yang sesuai memiliki sebelumnya $k(x,x')$

k (x, x^{'}) = \sum_{saya = 1}^{\infty} λ_{saya} ϕ_{saya} (x) ϕ_{saya} (x^{'})

$k(x,x')=\sum_{i=1}^\infty \lambda_i\phi_i(x)\phi_i(x')$

ϕ_{i}

$\phi_i$

dan fungsi dasar

. Dengan demikian, setiap dokter umum dapat dirumuskan sebagai model regresi linier bayesian dengan diagonal sebelumnya. Namun, jika kita sekarang menggunakan teorema mercers untuk setiap konfigurasi kernel

diparameterisasi

yang dapat dibedakan pada setiap

nilai eigen dan fungsi eigen yang sesuai mungkin berbeda untuk setiap konfigurasi.

w \sim N (0, diag ([λ_{1}^{2}, \dots]))

$w \sim \mathcal{N}(0,\text{diag}([\lambda_1^2,\ldots]))$

ϕ_{i}

$\phi_i$

k (x, x^{'}, θ)

$k(x,x',\theta)$

θ

$\theta$

Pertanyaan saya berikutnya adalah tentang inversi teorema tentara.

Kumpulan fungsi basis manakah yang mengarah ke kernel yang valid?

Dan ekstensi

Set fungsi basis parameterisasi mana yang mengarah ke kernel terdiferensiasi yang valid?

gaussian-process kernel-trick basis-function

— Julian Karls
sumber

Ini beberapa komentar. Mungkin orang lain bisa mengisi detailnya.

1) Representasi dasar selalu merupakan ide yang baik. Sulit untuk menghindarinya jika Anda ingin benar-benar melakukan sesuatu komputasi dengan fungsi kovarians Anda. Perluasan basis dapat memberi Anda perkiraan untuk kernel dan sesuatu untuk dikerjakan. Harapannya adalah Anda dapat menemukan dasar yang masuk akal untuk masalah yang Anda coba selesaikan.

$\theta$ $\theta$

Biasanya, jumlah fungsi basis akan (terhitung) tidak terbatas, sehingga jumlahnya tidak akan bervariasi dengan parameter, kecuali beberapa nilai menyebabkan kernel menjadi merosot.

$w \sim \mathcal{N}(0,diag[\lambda_1^2, \ldots])$ $w$ $diag[\lambda_1^2, \ldots]$

$\lambda_i$ $\lambda_i$ $x$

Jika fungsi dasar tidak ortogonal maka akan lebih sulit untuk menunjukkan bahwa kovarians yang didefinisikan darinya adalah pasti positif. Jelas, dalam hal ini Anda tidak berurusan dengan ekspansi eigen, tetapi dengan beberapa cara lain untuk mendekati fungsi bunga.

Namun, saya tidak berpikir orang biasanya mulai dari banyak fungsi dan kemudian mencoba membangun kernel kovarians dari mereka.

RE: Diferabilitas kernel dan diferensiabilitas fungsi dasar. Saya sebenarnya tidak tahu jawaban untuk pertanyaan ini, tetapi saya akan menawarkan pengamatan berikut.

Analisis fungsional dimulai dengan memperkirakan fungsi (dari ruang dimensi tak terbatas) dengan jumlah terbatas dari fungsi yang lebih sederhana. Untuk membuat ini bekerja, semuanya tergantung pada jenis konvergensi yang terlibat. Biasanya, jika Anda bekerja pada himpunan kompak dengan sifat konvergensi yang kuat (konvergensi seragam atau kemutakhiran absolut) pada fungsi yang menarik, maka Anda mendapatkan jenis hasil intuitif yang Anda cari: sifat fungsi sederhana dilewatkan ke fungsi batas - misalnya jika kernel merupakan fungsi parameter yang dapat dibedakan, maka fungsi ekspansi harus merupakan fungsi yang dapat dibedakan dari parameter yang sama, dan sebaliknya. Di bawah properti konvergensi yang lebih lemah atau domain non-kompak, ini tidak terjadi. Dalam pengalaman saya, ada contoh tandingan untuk setiap ide "masuk akal" yang muncul.

Catatan: Untuk mencegah kemungkinan kebingungan dari pembaca pertanyaan ini, perhatikan bahwa ekspansi Gaussian poin 1 bukan contoh ekspansi eigen poin 2.

— Placidia
sumber