Apa perbedaan antara melakukan regresi linier dengan Gaussian Radial Basis Function (RBF) dan melakukan regresi linier dengan kernel Gaussian?
Apa perbedaan antara melakukan regresi linier dengan Gaussian Radial Basis Function (RBF) dan melakukan regresi linier dengan kernel Gaussian?
Jawaban:
Satu-satunya perbedaan nyata adalah dalam regularisasi yang diterapkan. Jaringan RBF yang teregulasi biasanya menggunakan penalti berdasarkan norma bobot kuadrat. Untuk versi kernel, hukuman biasanya pada norma kuadrat dari bobot model linear yang dibangun secara implisit dalam ruang fitur yang diinduksi oleh kernel. Perbedaan praktis utama yang dibuat adalah bahwa penalti untuk jaringan RBF tergantung pada pusat-pusat jaringan RBF (dan karenanya pada sampel data yang digunakan) sedangkan untuk kernel RBF, ruang fitur yang diinduksi adalah sama terlepas dari sampel data, sehingga penalti adalah penalti pada fungsi model, bukan pada parameterisasinya .
Dengan kata lain, untuk kedua model yang kami miliki
Untuk pendekatan jaringan RBF, kriteria pelatihannya adalah
Untuk metode kernel RBF, kita memiliki , dan . Ini berarti bahwa hukuman norma kuadrat pada bobot model dalam ruang fitur yang diinduksi, dapat ditulis dalam hal parameter ganda, sebagai
di mana adalah bagian dari evaluasi pasangan-bijaksana dari kernel untuk semua pola pelatihan. Kriteria pelatihan kemudian
.
Satu-satunya perbedaan antara kedua model adalah dalam istilah regularisasi.
Keuntungan teoretis utama dari pendekatan kernel adalah memungkinkan Anda untuk menafsirkan model non-linear sebagai model linier mengikuti transformasi non-linear tetap yang tidak bergantung pada sampel data. Dengan demikian, setiap teori pembelajaran statistik yang ada untuk model linear secara otomatis ditransfer ke versi non-linear. Namun, ini semua rusak segera setelah Anda mencoba dan menyetel parameter kernel, pada titik mana kita kembali ke titik yang hampir sama secara teoritis ketika kita menggunakan jaringan saraf RBF (dan MLP). Jadi keuntungan teoretis mungkin tidak sebesar yang kita inginkan.
Apakah mungkin ada perbedaan nyata dalam hal kinerja? Mungkin tidak banyak. Teorema "tanpa makan siang gratis" menunjukkan bahwa tidak ada keunggulan a-priori dari algoritma apa pun di atas semua algoritma lainnya, dan perbedaan dalam regularisasi cukup halus, jadi jika ragu cobalah keduanya dan pilih yang terbaik sesuai misalnya validasi silang.