Saya pikir kunci sihir adalah kelancaran. Jawaban panjang saya yang berikut ini hanya untuk menjelaskan tentang kelancaran ini. Ini mungkin atau mungkin bukan jawaban yang Anda harapkan.
Jawaban singkat:
Mengingat kernel yang pasti positif , terdapat ruang yang sesuai fungsi H . Properti fungsi ditentukan oleh kernel. Ternyata jika k adalah kernel Gaussian, fungsi-fungsi dalam H sangat lancar. Jadi, fungsi yang dipelajari (misalnya, fungsi regresi, komponen utama dalam RKHS seperti pada kernel PCA) sangat lancar. Biasanya asumsi kelancaran masuk akal untuk sebagian besar dataset yang ingin kita atasi. Ini menjelaskan mengapa kernel Gaussian bersifat magis.kHkH
Jawaban panjang mengapa kernel Gaussian memberikan fungsi yang halus:
Sebuah positif yang pasti kernel mendefinisikan (secara implisit) produk dalam k ( x , y ) = ⟨ φ ( x ) , φ ( y ) ⟩ H
untuk vektor fitur φ ( x ) dibangun dari masukan Anda x , dan
H adalah ruang Hilbert. Notasi ⟨ φ ( x ) , φ ( y ) ⟩k(x,y)k(x,y)=⟨ϕ(x),ϕ(y)⟩Hϕ(x)xH⟨ϕ(x),ϕ(y)⟩
berarti produk dalam antara dan ϕ ( y ) . Untuk tujuan kami, Anda dapat membayangkan H sebagai ruang Euclidean yang biasa tetapi mungkin dengan jumlah dimensi yang tidak terbatas. Bayangkan vektor biasa yang panjangnya tak terhingga seperti ϕ ( x ) = ( ϕ 1 ( x ) , ϕ 2 ( x ) , ... ) . Dalam metode kernel, Hϕ(x)ϕ(y)Hϕ(x)=(ϕ1(x),ϕ2(x),…)Hadalah ruang fungsi yang disebut mereproduksi kernel Hilbert space (RKHS). Ruang ini memiliki properti khusus yang disebut `` mereproduksi properti '' yang adalah bahwa . Ini mengatakan bahwa untuk mengevaluasi f ( x ) , pertama-tama Anda membuat vektor fitur (panjangnya seperti yang disebutkan) untuk f . Kemudian Anda membangun vektor fitur Anda untuk x dilambangkan dengan ϕ ( x ) (panjang tak terhingga). Evaluasi f ( x )f(x)=⟨f,ϕ(x)⟩f(x)fxϕ ( x )f( x )diberikan dengan mengambil produk dalam keduanya. Jelas, dalam praktiknya, tidak ada yang akan membuat vektor panjang yang tak terhingga. Karena kami hanya peduli dengan produk dalamnya, kami langsung mengevaluasi kernel . Memotong perhitungan fitur eksplisit dan secara langsung menghitung produk dalamnya dikenal sebagai "trik kernel".k
Apa saja fiturnya?
Saya terus mengatakan fitur tanpa menentukan apa itu. Diberikan kernel k , fitur-fiturnya tidak unik. Tapi
⟨ φ ( x ) , φ ( y ) ⟩ ditentukan secara unik. Untuk menjelaskan kelancaran fungsi, mari kita perhatikan fitur Fourier. Asumsikan sebuah terjemahan invarian kernel k , yang berarti k ( x , y ) = k ( x - yϕ1( x ) , ϕ2( x ) , ...k⟨ Φ ( x ) , φ ( y) ⟩k
yaitu, kernel hanya tergantung pada perbedaan dari dua argumen. Kernel Gaussian memiliki properti ini. Biarkan k menunjukkan Transformasi Fourier dari k .k ( x , y) = k ( x - y)k^k
Dalam sudut pandang Fourier ini, fitur
diberikan oleh f : = ( ⋯ , f l / √f. Ini mengatakan bahwa representasi fitur dari fungsi Andaf
diberikan oleh transformasi Fourier-nya dibagi oleh transformasi Fourer dari kernelk. Representasi fiturx, yaituϕ(x)
adalah(⋯,√f: = ( ⋯ , f^l/ k^l--√, ⋯ )fkxϕ ( x )
di manai=√( ⋯ , k^l--√exp( - i l x ) , ⋯ ) . Orang dapat menunjukkan bahwa properti yang direproduksi berlaku (latihan untuk pembaca).i = - 1---√
Seperti di ruang Hilbert mana pun, semua elemen yang termasuk dalam ruang harus memiliki norma yang terbatas. Mari kita perhatikan norma kuadrat dari :f∈ H
∥ f∥2H= ⟨ F, f⟩H= ∑∞l = - ∞f^2lk^l.
Jadi kapan norma yang terbatas ini, milik ruang? Ini adalah ketika f 2 l tetes lebih cepat dari k l sehingga jumlah konvergen. Sekarang, transformasi Fourier dari kernel Gaussian k ( x , y ) = exp ( - ‖ x - y ‖ 2ff^2lk^l k ( x , y) = exp( - ∥ x - y∥2σ2)
adalah Gaussian lain di mana k l menurun secara eksponensial cepat dengan l . Jadi jika f berada di ruang ini, transformasi Fouriernya harus jatuh lebih cepat daripada k . Ini berarti fungsi hanya akan memiliki beberapa komponen frekuensi rendah dengan bobot tinggi secara efektif. Sebuah sinyal dengan hanya komponen frekuensi rendah tidak terlalu banyak bergerak. Ini menjelaskan mengapa kernel Gaussian memberi Anda fungsi yang lancar.k^llfk
Extra: Bagaimana dengan kernel Laplace?
Jika Anda mempertimbangkan kernel Laplace ,
transformasi Fourier-nyaadalah distribusi Cauchy yang jauh lebih lambat daripada fungsi eksponensial dalam transformasi Fourier dari kernel Gaussian. Ini berarti suatu fungsifakan memiliki lebih banyak komponen frekuensi tinggi. Akibatnya, fungsi yang diberikan oleh kernel Laplace adalah `` lebih kasar '' daripada yang diberikan oleh kernel Gaussian.k ( x , y) = exp( - ∥ x - y∥σ)f
Apa yang merupakan properti dari kernel Gaussian yang tidak dimiliki kernel lain?
Terlepas dari lebar Gaussian, satu properti adalah bahwa kernel Gaussian adalah `` universal ''. Secara intuitif, ini berarti, mengingat fungsi kontinu terbatas (sewenang-wenang), terdapat fungsi f ∈ H sedemikian sehingga f dan g
dekat (dalam arti ‖ ⋅ ‖ ∞ ) hingga presisi yang diperlukan sewenang-wenang. Pada dasarnya, ini berarti kernel Gaussian memberikan fungsi yang dapat mendekati fungsi "bagus" (dibatasi, kontinu) secara sewenang-wenang. Kernel Gaussian dan Laplace bersifat universal. Kernel polinomial, misalnya, tidak.gf∈ Hfg∥ ⋅ ∥∞)
Mengapa kita tidak meletakkan norma melalui, katakanlah, Cauchy PDF dan mengharapkan hasil yang sama?
Secara umum, Anda dapat melakukan apapun yang Anda suka asalkan dihasilkan
pasti positif. Kepastian positif didefinisikan sebagai Σ N i = 1 Σ N j = 1 k ( x i , x j ) α i α j > 0
untuk semua a i ∈ R , { x i } N i = 1 dan semua
N ∈ N ( set nomor alami). Jika kk∑Ni=1∑Nj=1k(xi,xj)αiαj>0αsaya∈ R{ xsaya}Ni = 1N∈ Nktidak pasti positif, maka itu tidak sesuai dengan ruang produk dalam. Semua analisis rusak karena Anda bahkan tidak memiliki ruang fungsi
seperti yang disebutkan. Meskipun demikian, ini dapat bekerja secara empiris. Misalnya, kernel tangen hiperbolik (lihat nomor 7 di halaman ini )H
k(x,y)=tanh(αx⊤y+c)
yang dimaksudkan untuk meniru unit aktivasi sigmoid dalam jaringan saraf, hanya pasti positif untuk beberapa pengaturan dan c . Masih dilaporkan bahwa ia bekerja dalam praktik.αc
Bagaimana dengan jenis fitur lainnya?
Saya katakan fitur tidak unik. Untuk kernel Gaussian, serangkaian fitur lain diberikan oleh ekspansi Mercer . Lihat Bagian 4.3.1 dari buku proses Gaussian yang terkenal . Dalam hal ini, fitur adalah polinomial Hermite yang dievaluasi pada x .ϕ(x)x