Peta fitur untuk kernel Gaussian

24

Dalam SVM, kernel Gaussian didefinisikan sebagai: mana . Saya tidak tahu persamaan eksplisit . Saya ingin mengetahuinya.

K (x, y) = \exp (- \frac{‖ x - y ‖_{2}^{2}}{2 σ^{2}}) = ϕ (x)^{T} ϕ (y)

$K(x,y)=\exp\left({-\frac{\|x-y\|_2^2}{2\sigma^2}}\right)=\phi(x)^T\phi(y)$

x, y \in R^{n}

$x, y\in \mathbb{R^n}$

ϕ

$\phi$

Saya juga ingin tahu apakah

\sum_{i} c_{i} ϕ (x_{i}) = ϕ (\sum_{i} c_{i} x_{i})

$\sum_ic_i\phi(x_i)=\phi \left(\sum_ic_ix_i \right)$ di mana

c_{i} \in R

$c_i\in \mathbb R$ . Sekarang, saya pikir itu tidak sama, karena menggunakan kernel menangani situasi di mana linear tidak bekerja. Saya tahu

ϕ

$\phi$ memproyeksikan x ke ruang tanpa batas. Jadi jika masih tetap linier, berapa pun dimensinya, svm tetap tidak bisa membuat klasifikasi yang baik.

machine-learning svm kernel-trick

— Vivian
sumber

mengapa kernel ini menyiratkan transformasi? Atau apakah Anda merujuk ke ruang fitur terkait?

— Placidia

Ya, apa ruang fitur

ϕ (\cdot)

$\phi(\cdot)$ sehingga

ϕ^{T} (x) ϕ (x^{^{'}}) = e x p (- \frac{1}{2 σ^{2}} ‖ x - x^{^{'}} ‖^{2})

$\phi^T(x)\phi(x^{'}) = exp(-\frac{1}{2\sigma^2}\|x-x^{'}\|^2)$

— user27886

20

Anda dapat memperoleh persamaan eksplisit $\phi$ untuk kernel Gaussian melalui perluasan seri Penjahit $e^x$ . Untuk kesederhanaan notasi, asumsikan $x\in \mathbb{R}^1$ :

ϕ (x) = e^{- x^{2} / 2 σ^{2}} [1, \sqrt{\frac{1}{1! σ^{2}}} x, \sqrt{\frac{1}{2! σ^{4}}} x^{2}, \sqrt{\frac{1}{3! σ^{6}}} x^{3}, \dots]^{T}

$\phi(x) = e^{-x^2/2\sigma^2} \Big[ 1, \sqrt{\frac{1}{1!\sigma^2}}x,\sqrt{\frac{1}{2!\sigma^4}}x^2,\sqrt{\frac{1}{3!\sigma^6}}x^3,\ldots\Big]^T$

Ini juga dibahas secara lebih rinci dalam slide-slide ini oleh Chih-Jen Lin dari NTU (slide 11 khusus). Perhatikan bahwa dalam slide digunakan sebagai parameter kernel. $\gamma=\frac{1}{2\sigma^2}$

Persamaan dalam OP hanya berlaku untuk kernel linier.

— Marc Claesen
sumber

2

Hai, tetapi persamaan di atas hanya cocok untuk satu dimensi.

— Vivian

Jadi, di sini, ruang kernel Hilbert yang direproduksi adalah subruang dari , benar?

ℓ^{2}

$\ell^2$

— The_Anomaly

Apakah ada juga representasi eksplisit dari kernel Laplacian?

— Felix Crazzolara

13

Untuk setiap kernel psd valid , terdapat peta fitur sehingga . Ruang dan embedding sebenarnya tidak harus unik, tetapi ada pasangan unik yang penting dikenal sebagai kernel mereproduksi ruang Hilbert (RKHS). $k : \mathcal X \times \mathcal X \to \mathbb R$ $\varphi : \mathcal X \to \mathcal H$ $k(x, y) = \langle \varphi(x), \varphi(y) \rangle_{\mathcal H}$ $\mathcal H$ $\varphi$ $(\mathcal H, \varphi)$

RKHS didiskusikan oleh: Steinwart, Hush and Scovel, Deskripsi yang Eksplisit tentang Ruang Hilbert Kernel yang Direproduksi dari Gaussian RBF Kernels , Transaksi IEEE pada Teori Informasi 2006 ( doi , free citeseer pdf ).

Agak rumit, tetapi intinya adalah: define sebagai $e_n : \mathbb C \to \mathbb C$

e_{n} (z) := \sqrt{\frac{(2 σ^{2})^{n}}{n!}} z^{n} e^{- σ^{2} z^{2}} .

$e_n(z) := \sqrt{\frac{(2 \sigma^2)^n}{n!}} z^n e^{-\sigma^2 z^2} .$

Misalkan menjadi urutan yang berkisar pada semua -tupel bilangan bulat negatif; jika , mungkin , , , dan seterusnya. Nyatakan komponen th tuple ke- oleh . $n : \mathbb{N}_0 \to \mathbb{N}_0^d$ $d$ $d = 3$ $n(0) = (0, 0, 0)$ $n(1) = (0, 0, 1)$ $n(2) = (0, 1, 1)$ $j$ $i$ $n_{ij}$

Kemudian th komponen adalah . Jadi memetakan vektor dalam ke vektor kompleks dimensi tak terbatas. $i$ $\varphi(x)$ $\prod_{j=1}^d e_{n_{ij}}(x_j)$ $\varphi$ $\mathbb R^d$

Yang menarik dari hal ini adalah bahwa kita harus mendefinisikan norma untuk vektor kompleks dimensi tak terbatas ini dengan cara yang khusus; lihat kertas untuk detailnya.

Steinwart et al. juga memberikan yang lebih mudah (untuk pemikiran saya) menanamkan ke , ruang Hilbert fungsi persegi-integrable dari : Perhatikan bahwa itu sendiri merupakan fungsi dari untuk . Ini pada dasarnya adalah kepadatan Gaussian dimensional dengan rerata dan kovarians ; hanya konstanta normalisasi yang berbeda. Demikian saat kita ambil $L_2(\mathbb R^d)$ $\mathbb R^d \to \mathbb R$

Φ_{σ} (x) = \frac{(2 σ)^{\frac{d}{2}}}{π^{\frac{d}{4}}} e^{- 2 σ^{2} ‖ x - \cdot ‖_{2}^{2}} .

$\Phi_\sigma(x) = \frac{(2 \sigma)^{\frac{d}{2}}}{\pi^{\frac{d}{4}}} e^{- 2 \sigma^2 \lVert x - \cdot \rVert_2^2} .$

Φ_{σ} (x)

$\Phi_\sigma(x)$

R^{d}

$\mathbb R^d$

R

$\mathbb R$

d

$d$

x

$x$

\frac{1}{4 σ^{2}} I

$\frac{1}{4 \sigma^2} I$

⟨ Φ (x), Φ (y) ⟩_{L_{2}} = \int [Φ (x)] (t) [Φ (y)] (t) d t,

$\langle \Phi(x), \Phi(y) \rangle_{L_2} = \int [\Phi(x)](t) \; [\Phi(y)](t) \,\mathrm d t ,$ kami mengambil produk dari fungsi kepadatan Gaussian , yang dengan sendirinya merupakan waktu konstan tertentu fungsi kepadatan Gaussian. Ketika Anda melakukan itu integral dengan , maka, konstanta yang jatuh akhirnya menjadi persis .

t

$t$

k (x, y)

$k(x, y)$

Ini bukan satu-satunya embeddings yang berfungsi.

Lain didasarkan pada transformasi Fourier, yang makalah terkenal Rahimi dan Recht ( Fitur Acak untuk Mesin Kernel Skala Besar , NIPS 2007) mendekati efek yang besar.

Anda juga dapat melakukannya menggunakan seri Taylor: secara efektif versi tak terbatas dari Cotter, Keshet, dan Srebro, Perkiraan Eksplisit dari Kernel Gaussian , arXiv: 1109.4603 .

— Dougal
sumber

1

Douglas Zare memberikan versi 1d dari penyisipan "lebih mudah" di utas yang menarik di sini .

— Dougal

Di sini Anda menemukan penjelasan yang lebih 'intuitif' bahwa dapat memetakan ke dimensi yang sama dengan ukuran sampel pelatihan, bahkan untuk sampel pelatihan tak terbatas: stats.stackexchange.com/questions/80398/…

Φ

$\Phi$

6

Tampaknya bagi saya bahwa persamaan kedua Anda hanya akan benar jika adalah pemetaan linear (dan karenanya adalah kernel linier). Karena kernel Gaussian adalah non-linear, persamaan tidak akan berlaku (kecuali mungkin dalam batas sebagai menjadi nol). $\phi$ $K$ $\sigma$

— Dikran Marsupial
sumber

Terima kasih atas jawaban Anda. Ketika

, dimensi proyek kernel Gaussian akan meningkat. Dan dengan inspirasi Anda, sekarang saya pikir itu tidak sama. Karena, menggunakan kernel hanya menangani situasi bahwa klasifikasi linier tidak berfungsi.

σ \to 0

$\sigma\rightarrow 0$

— Vivian