Dalam praktiknya, alasan SVM cenderung tahan terhadap pemasangan berlebihan, bahkan dalam kasus di mana jumlah atribut lebih besar dari jumlah pengamatan, adalah bahwa SVM menggunakan regularisasi. Kunci untuk menghindari over-fitting terletak pada penyetelan hati-hati dari parameter regularisasi, , dan dalam kasus SVM non-linear, pemilihan kernel dan penyetelan parameter kernel secara cermat.C
SVM adalah implementasi perkiraan dari terikat pada kesalahan generalisasi, yang tergantung pada margin (pada dasarnya jarak dari batas keputusan ke pola terdekat dari masing-masing kelas), tetapi tidak tergantung pada dimensi ruang fitur (itulah sebabnya menggunakan trik kernel untuk memetakan data ke dalam ruang dimensi yang sangat tinggi bukanlah ide yang buruk sepertinya). Jadi pada prinsipnya SVM harus sangat tahan terhadap pemasangan berlebihan, tetapi dalam praktiknya ini tergantung pada pilihan yang cermatC
GC Cawley dan NLC Talbot, Mencegah over-fitting dalam pemilihan model melalui regularisasi Bayesian dari hyper-parameter, Journal of Machine Learning Research, volume 8, halaman 841-861, April 2007. ( www )
dan
GC Cawley dan NLC Talbot, Over-fitting dalam pemilihan model dan bias seleksi selanjutnya dalam evaluasi kinerja, Journal of Machine Learning Research, 2010. Penelitian, vol. 11, hlm. 2079-2107, Juli 2010. ( www )
Kedua makalah tersebut menggunakan regresi ridge kernel, bukan SVM, tetapi masalah yang sama muncul dengan mudah dengan SVM (juga batas yang sama berlaku untuk KRR, jadi tidak ada banyak untuk memilih di antara mereka dalam praktek). Jadi sedikit banyak, SVM tidak benar-benar menyelesaikan masalah over-fitting, mereka hanya mengalihkan masalah dari pemasangan model ke pemilihan model.
Seringkali merupakan godaan untuk membuat hidup sedikit lebih mudah bagi SVM dengan melakukan semacam pemilihan fitur terlebih dahulu. Ini umumnya membuat masalah menjadi lebih buruk, karena tidak seperti SVM, algoritme pemilihan fitur cenderung menunjukkan lebih pas ketika jumlah atribut meningkat. Kecuali Anda ingin tahu mana atribut informatif, biasanya lebih baik untuk melewatkan langkah pemilihan fitur dan hanya menggunakan regularisasi untuk menghindari data yang terlalu pas.
Singkatnya, tidak ada masalah inheren dengan menggunakan SVM (atau model yang diatur lainnya seperti regresi ridge, LARS, Lasso, jaring elastis dll) pada masalah dengan 120 pengamatan dan ribuan atribut, asalkan parameter regularisasi disetel dengan benar .