Seperti yang disarankan oleh highBandwidth, itu tergantung apakah Anda menggunakan SVM linier atau non-linear (menjadi pedantic jika kernel tidak digunakan, itu adalah klasifikasi linear margin maksimal daripada SVM).
Klasifikasi linear margin maksimal tidak berbeda dari classifier linier lain dalam hal jika proses menghasilkan data berarti bahwa ada interaksi antara atribut, maka menyediakan istilah interaksi tersebut kemungkinan akan meningkatkan kinerja. Klasifikasi linear margin maksimal agak seperti regresi ridge, dengan sedikit perbedaan dalam jangka waktu penalti yang dirancang untuk menghindari overfitting (diberikan nilai yang sesuai untuk parameter regularisasi), dan dalam kebanyakan kasus regresi ridge dan classifier margin maksimal akan memberikan kinerja yang sama.
Jika Anda berpikir bahwa istilah interaksi cenderung penting, maka Anda dapat memperkenalkannya ke dalam ruang fitur SVM dengan menggunakan kernel polinomial , yang akan memberikan ruang fitur di mana setiap sumbu mewakili monomial pesanan atau kurang, parameter mempengaruhi bobot relatif monomial pesanan berbeda. Jadi SVM dengan kernel polinomial sama dengan menyesuaikan model polinomial dalam ruang atribut, yang secara implisit menggabungkan interaksi tersebut. d cK(x,x′)=(x⋅x′+c)ddc
Dengan cukup fitur, setiap classifier linier dapat dengan mudah menyesuaikan data. IIRC dan poin dalam "posisi umum" dalam ruang dimensi dapat dihancurkan (dipisahkan dengan cara sewenang-wenang) oleh hyper-plane (cf VC dimensional). Melakukan hal ini umumnya akan mengakibatkan pemasangan berlebihan yang parah, dan karenanya harus dihindari. Maksud dari klasifikasi margin maksimal adalah untuk membatasi over-fitting ini dengan menambahkan hukuman yang berarti bahwa pemisahan terbesar yang mungkin dicapai (yang akan membutuhkan penyimpangan terbesar dari contoh pelatihan untuk menghasilkan kesalahan klasifikasi). Ini berarti Anda dapat mengubah data menjadi ruang dimensi yang sangat tinggi (di mana model linier sangat kuat) tanpa menimbulkan terlalu banyak pemasangan.n - 1nn−1
Perhatikan bahwa beberapa kernel memunculkan ruang fitur dimensi yang tak terbatas, di mana klasifikasi "sepele" dijamin dimungkinkan untuk setiap sampel pelatihan terbatas di posisi umum. Sebagai contoh, kernel fungsi basis radial, , di mana ruang fitur adalah ortant positif dari hypersphere dimensi tak terbatas. Kernel semacam itu menjadikan SVM sebagai aproksimasi universal, yang pada dasarnya dapat mewakili setiap batas keputusan.K(x,x′)=exp−γ∥x−x′∥2
Namun ini hanya sebagian dari cerita. Dalam praktiknya, kami biasanya menggunakan SVM soft-margin, di mana batasan margin diizinkan untuk dilanggar, dan ada parameter regularisasi yang mengontrol pertukaran antara memaksimalkan margin (yang merupakan istilah penalti, mirip dengan yang digunakan dalam regresi ridge) dan besarnya variabel slack (yang mirip dengan kerugian pada sampel pelatihan). Kami kemudian menghindari over-fitting dengan menyetel parameter regularsation, misalnya dengan meminimalkan kesalahan validasi silang (atau beberapa terikat pada error leave-one-out), seperti yang akan kami lakukan dalam kasus regresi ridge.
Jadi, sementara SVM dapat dengan sepele mengklasifikasikan set pelatihan, ia umumnya hanya akan melakukannya jika parameter regularisasi dan kernel dipilih dengan buruk. Kunci untuk mencapai hasil yang baik dengan model kernel terletak pada pemilihan kernel yang tepat, dan kemudian dalam menyetel parameter kernel dan regularisasi untuk menghindari data yang terlalu banyak atau kurang pas.