Dalam SVM Anda sedang mencari dua hal: hyperplane dengan margin minimum terbesar, dan hyperplane yang memisahkan dengan benar sebanyak mungkin instance. Masalahnya adalah Anda tidak akan selalu bisa mendapatkan keduanya. Parameter c menentukan seberapa besar keinginan Anda untuk yang terakhir. Saya telah mengambil contoh kecil di bawah ini untuk menggambarkan hal ini. Di sebelah kiri Anda memiliki c rendah yang memberi Anda margin minimum yang cukup besar (ungu). Namun, ini mengharuskan kita mengabaikan outlier lingkaran biru yang gagal kita klasifikasikan. Di sebelah kanan Anda memiliki tinggi c. Sekarang Anda tidak akan mengabaikan outlier dan dengan demikian berakhir dengan margin yang jauh lebih kecil.
Jadi yang mana dari pengklasifikasi ini yang terbaik? Itu tergantung pada seperti apa data masa depan yang akan Anda prediksi, dan paling sering Anda tidak tahu itu. Jika data masa depan terlihat seperti ini:
maka classifier yang dipelajari menggunakan nilai c besar adalah yang terbaik.
Di sisi lain, jika data masa depan terlihat seperti ini:
maka classifier yang dipelajari menggunakan nilai c rendah adalah yang terbaik.
Bergantung pada set data Anda, mengubah c mungkin atau mungkin tidak menghasilkan hyperplane yang berbeda. Jika tidak menghasilkan hyperplane yang berbeda, yang tidak berarti bahwa classifier Anda akan keluaran kelas yang berbeda untuk data tertentu yang Anda telah menggunakannya untuk mengklasifikasikan. Weka adalah alat yang baik untuk memvisualisasikan data dan bermain-main dengan pengaturan yang berbeda untuk SVM. Ini dapat membantu Anda mendapatkan ide yang lebih baik tentang bagaimana data Anda terlihat dan mengapa mengubah nilai c tidak mengubah kesalahan klasifikasi. Secara umum, memiliki beberapa contoh pelatihan dan banyak atribut membuatnya lebih mudah untuk membuat pemisahan data secara linier. Juga fakta bahwa Anda mengevaluasi data pelatihan Anda dan bukan data baru yang tak terlihat membuat pemisahan lebih mudah.
Jenis data apa yang Anda coba pelajari dari sebuah model? Berapa banyak data? Bisakah kita melihatnya?