Mengapa salah menafsirkan SVM sebagai probabilitas klasifikasi?

Pemahaman saya tentang SVM adalah bahwa hal itu sangat mirip dengan regresi logistik (LR), yaitu sejumlah fitur tertimbang dilewatkan ke fungsi sigmoid untuk mendapatkan kemungkinan memiliki kelas, tetapi alih-alih kehilangan cross-entropy (logistik) fungsi, pelatihan dilakukan menggunakan engsel yang hilang. Manfaat menggunakan kehilangan engsel adalah bahwa seseorang dapat melakukan berbagai trik numerik untuk membuat kernelisasi lebih efisien. Namun, kelemahannya adalah bahwa model yang dihasilkan memiliki informasi lebih sedikit daripada yang dimiliki oleh model LR yang sesuai. Jadi, misalnya, tanpa kernelisation (menggunakan kernel linear) batas keputusan SVM masih akan berada di lokasi yang sama di mana LR akan menghasilkan probabilitas 0,5, TAPI seseorang tidak bisa mengatakan seberapa cepat kemungkinan menjadi bagian dari kelas meluruh menjauh dari batas keputusan.

Dua pertanyaan saya adalah:

Apakah interpretasi saya di atas benar?
Bagaimana cara menggunakan engsel kerugian membuatnya tidak valid untuk menafsirkan hasil SVM sebagai probabilitas?

machine-learning logistic svm

— GingerBadger
sumber

SVM tidak memasukkan apa pun ke dalam fungsi sigmoid. Ini cocok dengan hyperplane pemisah dengan data yang mencoba untuk menempatkan semua poin data dari set pelatihan Anda yang satu kelas di satu sisi, dan semua poin dari kelas lain di sisi lain. Akibatnya, ini menetapkan kelas berdasarkan sisi mana vektor fitur Anda aktif. Secara lebih formal, jika kita menyatakan vektor fitur sebagai dan koefisien hyperplane sebagai dan intersep, maka tugas kelas adalah . Memecahkan jumlah SVM untuk menemukan $\mathbf{x}$ $\mathbf{\beta}$ $\beta_0$ $y = sign(\beta \cdot \mathbf{x} + \beta_0)$ $\beta, \beta_0$ yang meminimalkan kerugian engsel dengan margin sebesar mungkin. Oleh karena itu, karena SVM hanya peduli pada sisi mana dari hyperplane Anda berada, Anda tidak dapat mengubah tugas kelasnya menjadi probabilitas.

Dalam kasus SVM linier (tanpa kernel), batas batas keputusan akan serupa dengan model regresi logistik, tetapi dapat bervariasi tergantung pada kekuatan regularisasi yang Anda gunakan agar sesuai dengan SVM. Karena SVM dan LR menyelesaikan berbagai masalah pengoptimalan, Anda tidak dijamin memiliki solusi yang identik untuk batas keputusan.

Ada banyak sumber daya di luar sana tentang SVM yang akan membantu memperjelas hal-hal: di sini ada satu contoh, dan satu lagi .

— bros higgs
sumber

higgs boson Ini sangat membantu, terima kasih! Hanya beberapa pertanyaan tindak lanjut: (1) dapatkah Anda memberikan contoh intuitif ketika batas keputusan SVM TIDAK akan mirip dengan LR ?, (2) adalah salah satu SVM linear dan LR umumnya lebih baik daripada yang lain, atau apakah ada jenis masalah yang lebih disukai?

— GingerBadger

Alex: secara umum, SVM linear dan LR umumnya bekerja secara sebanding dalam praktek. Jika Anda menginginkan keluaran probabilistik, maka gunakan LR. Jika Anda hanya peduli dengan tugas kelas, Anda dapat menggunakan keduanya. Jika Anda menginginkan contoh di mana batas keputusan mereka akan sangat berbeda, Anda dapat membayangkan kumpulan data yang dapat dipisahkan secara linear dengan beberapa poin dari kelas yang salah jauh dari batas keputusan. Outlier akan menarik batas regresi logistik ke arah mereka sendiri, tetapi jika Anda memiliki SVM dengan istilah regularisasi yang cukup besar, itu akan secara efektif mengabaikan outlier.

— the higgs broson