Jika Anda menggunakan regresi logistik dan cross-entropy
fungsi biaya, bentuknya cembung dan akan ada minimum. Tetapi selama optimasi, Anda mungkin menemukan bobot yang mendekati titik optimal dan tidak tepat pada titik optimal. Ini berarti bahwa Anda dapat memiliki beberapa klasifikasi yang mengurangi kesalahan dan mungkin mengaturnya menjadi nol untuk data pelatihan tetapi dengan bobot berbeda yang sedikit berbeda. Ini dapat menyebabkan batas keputusan yang berbeda. Pendekatan ini didasarkan pada berdasarkan metode statistik . Seperti yang diilustrasikan dalam bentuk berikut, Anda dapat memiliki batas keputusan yang berbeda dengan sedikit perubahan pada bobot dan semuanya tidak memiliki kesalahan pada contoh pelatihan.
Apa yang SVM
dilakukan adalah upaya untuk menemukan batas keputusan yang mengurangi risiko kesalahan pada data uji. Mencoba untuk menemukan batas keputusan yang memiliki jarak yang sama dari titik batas kedua kelas. Akibatnya, kedua kelas akan memiliki ruang yang sama untuk ruang kosong yang tidak ada data di sana. SVM
adalah geometris termotivasi daripada statistik .
Tidak ada SVM kernel tidak lebih dari separator linier. Oleh karena itu, apakah satu-satunya perbedaan antara SVM dan regresi logistik kriteria untuk memilih batas?
Mereka adalah pemisah linier dan jika Anda menemukan bahwa batas keputusan Anda bisa menjadi hyperplane, lebih baik menggunakan dan SVM
untuk mengurangi risiko kesalahan pada data uji.
Rupanya SVM memilih classifier margin maksimum dan regresi logistik yang meminimalkan kerugian lintas-entropi.
Ya, sebagaimana dinyatakan SVM
didasarkan pada sifat geometris data sementara logistic regression
didasarkan pada pendekatan statistik.
Dalam hal ini, apakah ada situasi di mana SVM akan melakukan lebih baik daripada regresi logistik, atau sebaliknya?
Seolah-olah, hasilnya tidak jauh berbeda, tetapi mereka berbeda. SVM
s lebih baik untuk generalisasi 1 , 2 .