Mesin dukungan vektor (SVM) adalah batas suhu nol dari regresi logistik?

Baru-baru ini saya berdiskusi singkat dengan seorang teman yang berpengetahuan luas yang menyebutkan bahwa SVM adalah batas suhu nol dari regresi logistik. Alasannya melibatkan polytopes marginal dan dualitas fenchel. Saya tidak bisa mengikuti.

Apakah pernyataan tentang SVM ini sebagai batas suhu nol dari regresi logistik benar? Dan jika demikian, dapatkah seseorang menggambarkan argumennya?

— ted
sumber

Keduanya terkait, tetapi saya terbiasa berpikir dalam regresi logistik lebih baik untuk mendapatkan probabilitas setiap kelas sementara SVM lebih baik dalam memutuskan. Jadi regresi logistik cocok dengan inferensi Bayesian, secara alami memberikan tingkat kepercayaan untuk setiap klasifikasi. SVM, di sisi lain, akan skala lebih baik karena hanya vektor dukungan dampak klasifikasi. Ini adalah lima sen saya.

— Ailton Andrade de Oliveira

Dalam kasus SVM hard-margin dan data yang dapat dipisahkan secara linear, ini benar.

Sketsa intuitif: Hilangnya untuk setiap titik data dalam regresi logistik hilang hampir sebagai kurva peluruhan eksponensial saat Anda semakin jauh dari batas keputusan (dalam arah yang benar tentu saja). Peluruhan eksponensial ini berarti bahwa titik-titik yang paling dekat dengan batas mengalami lebih banyak kerugian. Saat suhu turun ke 0, titik yang paling dekat dengan batas sepenuhnya mendominasi kerugian, dan kerugian ditentukan dengan tepat seberapa dekat titik terdekat.

Regresi logistik biner memiliki kehilangan lintas-entropi: mana adalah label dan adalah probabilitas yang diprediksi dalam . $- y \log p - (1-y)\log (1-p)$ $y$ $p$ $(0,1)$

Biasanya, mana adalah fungsi sigmoid. Berdasarkan parameter suhu yang diperkenalkan dalam makalah ini , saya menduga bahwa suhu mengacu pada modifikasi formulasi: , di mana adalah suhu dan saya Saya telah menjatuhkan istilah bias untuk kesederhanaan. $p = \sigma(w^Tx + b)$ $\sigma$ $p = \sigma(\frac{w^Tx}{\tau})$ $\tau$

Mengingat hanya istilah pertama dari kerugian, . Asumsikan semua , karena hal lain akan berarti bahwa berada di sisi yang salah dari batas keputusan dan menimbulkan kerugian tanpa batas sebagai . Karena istilah eksponensial menjadi sangat kecil dalam batas, kami menggunakan ekspansi taylor orde pertama untuk untuk menulis $-y\log p = y\log(1+\exp{}(-\frac{w^Tx}{\tau}))$ $w^Tx > 0$ $x$ $\tau \rightarrow 0$ $\log(1+z)$ $-y\log p \approx y\exp{(-\frac{w^Tx}{\tau})}$

Hingga saat ini, kami hanya menggunakan kerugian untuk satu titik data, tetapi kerugian sebenarnya adalah . Pertimbangkan hanya label positif ( ). Maka jumlah ini didominasi oleh istilah di mana adalah yang terkecil (paling dekat dengan batas keputusan). $\sum_i y_i \exp{(-\frac{w^Tx_i}{\tau})}$ $y_i = 1$ $w^Tx_i$

Ini dapat dilihat karena rasio antara suku dan suku adalah yang masuk hingga tak terhingga atau 0 sebagai , jadi hanya istilah penting. $i$ $j$ $\frac{\exp (-w^T x_i/\tau)}{\exp (-w^T x_j/\tau)} = \exp(\frac{w^T x_j-w^T x_i}{\tau})$ $\tau \rightarrow 0$ $w^T x_i$

Argumen simetris dapat digunakan pada istilah kedua dalam kerugian.

Oleh karena itu, hilangnya masalah regresi logistik karena suhu pergi ke 0 diminimalkan dengan memaksimalkan jarak minimum ke batas keputusan.

— shimao
sumber