Memahami regresi SVM: fungsi objektif dan "kerataan"


12

SVM untuk klasifikasi masuk akal bagi saya: Saya mengerti bagaimana meminimalkan menghasilkan margin maksimum. Namun, saya tidak mengerti tujuan itu dalam konteks regresi. Berbagai teks (di sini dan di sini ) menggambarkan ini sebagai memaksimalkan "kerataan." Mengapa kita ingin melakukan itu? Apa dalam regresi yang setara dengan konsep "margin"?||θ||2

Berikut adalah beberapa jawaban yang dicoba, tetapi tidak ada yang benar-benar membantu pemahaman saya.


Saya tidak benar-benar memahami teori SVM, tetapi 'kerataan' dalam diskusi mesin kernel yang Anda tautkan tampaknya sama dengan: 'memiliki turunan kedua yang kecil ' (pikirkan motivasi tipikal untuk model penghalusan spline).
conjugateprior

Jawaban:


11

Salah satu cara saya berpikir tentang kerataan adalah membuat prediksi saya kurang sensitif terhadap gangguan pada fitur. Artinya, jika saya membangun model bentuk mana vektor fitur x saya telah dinormalisasi, maka nilai yang lebih kecil di θ berarti model saya kurang sensitif terhadap kesalahan dalam pengukuran / guncangan acak / non -Stasionaritas fitur, x . Diberikan dua model ( yaitu dua kemungkinan nilai θ ) yang menjelaskan data dengan baik, saya lebih suka yang 'lebih datar'.

y=xθ+ϵ,
xθxθ

Anda juga dapat menganggap Ridge Regression sebagai peforming hal yang sama tanpa trik kernel atau formulasi regresi 'tabung' SVM.

sunting : Menanggapi komentar @ Yang, beberapa penjelasan lebih lanjut:

  1. Pertimbangkan kasus linier: . Misalkan x diambil iid dari beberapa distribusi, terlepas dari θ . Dengan identitas produk titik, kita memiliki y = | | x | | | | θ | | cos ψ + ϵ , di mana ψ adalah sudut antara θ dan x , yang mungkin didistribusikan di bawah beberapa distribusi seragam bola. Sekarang perhatikan: 'sebaran' ( mis. Simpangan baku sampel) dari prediksi kami tentangy=xθ+ϵxθy=||x||||θ||cosψ+ϵψθx sebanding dengan | | θ | | . Untuk mendapatkan MSE yang baik dengan versi pengamatan kami yang laten dan tanpa suara, kami ingin mengecilkan itu | | θ | | . cfpenaksir James Stein.y||θ||||θ||
  2. Pertimbangkan kasus linier dengan banyak fitur. Pertimbangkan model , dan y = x θ 2 + ϵ . Jika θ 1 memiliki lebih banyak elemen nol di dalamnya daripada θ 2 , tetapi tentang kekuatan penjelas yang sama, kami lebih suka, berdasarkan pada pisau Occam, karena ia memiliki ketergantungan pada variabel yang lebih sedikit ( yaitu kami telah 'melakukan pemilihan fitur' dengan menetapkan beberapa elemen dari θ 1 hingga nol). Kerataan adalah semacam versi berkelanjutan dari argumen ini. Jika setiap marjinal xy=xθ1+ϵy=xθ2+ϵθ1θ2θ1xmemiliki standar deviasi satuan, dan memiliki misalnya 2 elemen yaitu 10, dan sisanya n - 2 lebih kecil dari 0,0001, tergantung pada toleransi kebisingan Anda, ini secara efektif 'memilih' dua fitur, dan menghilangkan yang tersisa .θ1n2
  3. Ketika trik kernel digunakan, Anda melakukan regresi linier dalam ruang vektor berdimensi tinggi (terkadang tak terbatas). Setiap elemen sekarang sesuai dengan salah satu sampel Anda , bukan fitur Anda . Jika k elemen θ adalah non-nol, dan sisanya m - k adalah nol, fitur yang sesuai dengan elemen k non-nol θ disebut 'vektor dukungan' Anda. Untuk menyimpan model SVM Anda, katakanlah pada disk, Anda hanya perlu menyimpan vektor fitur k itu , dan Anda dapat membuang sisanya. Sekarang kerataan sangat penting, karena memiliki kθkθmkkθkkkecil mengurangi penyimpanan dan transmisi, dll , persyaratan. Sekali lagi, tergantung pada toleransi Anda terhadap kebisingan, Anda mungkin bisa nol semua elemen tetapi l terbesar, untuk beberapa l , setelah melakukan sebuah regresi SVM. Kerataan di sini setara dengan kekikiran sehubungan dengan jumlah vektor dukungan.θll

1
jadi ini pada dasarnya regresi dengan fungsi kerugian 'tabung' (0 penalti untuk poin +/- epsilon dari prediksi) daripada fungsi kerugian kuadratik dari OLS?
conjugateprior

@Conjugate Prior: yes, biasanya regresi kernel meminimalkan fungsi 'epsilon-insenstive loss', yang dapat Anda anggap sebagai lihat mis. Kernelsvm.tripod.com atau makalah lain oleh Smola et al . f(x)=(|x|ϵ)+
shabbychef

@shabbychef Terima kasih. Saya selalu bertanya-tanya apa yang sedang terjadi di sana.
conjugateprior

@Conjugate Prior: Saya tidak berpikir ini sebenarnya adalah fungsi kerugian yang diinginkan, tetapi matematika akhirnya bekerja dengan baik, jadi mereka berlari dengannya. Setidaknya itu kecurigaan saya.
shabbychef

y=θxθϵθ=1e91θ=1e9θ=1e9+1

3

shabbychef memberikan penjelasan yang sangat jelas dari perspektif kompleksitas model. Saya akan mencoba memahami masalah ini dari sudut pandang lain jika itu dapat membantu siapa saja.

e

(xi,yi)y=ωx+bee

|ωxiyi+b|ω2+1

eω

Siapa pun dapat dengan mudah memperluas case satu dimensi ke case N-dimensional karena persamaan jarak akan selalu menjadi jarak Euclidean .

Selain itu, kami mungkin memiliki ulasan tentang masalah optimisasi dalam SVR untuk perbandingan [1].

min12||ω||2
s.t.{yi<ω,xi>be<ω,xi>+byie

Terima kasih.

[1] Smola, A., dan B. Schölkopf. Tutorial tentang mendukung vektor regresi. Statistik dan Komputasi, Vol. 14, No. 3, Agustus 2004, hlm. 199–222.


Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.