Dalam kasus SVM hard-margin dan data yang dapat dipisahkan secara linear, ini benar.
Sketsa intuitif: Hilangnya untuk setiap titik data dalam regresi logistik hilang hampir sebagai kurva peluruhan eksponensial saat Anda semakin jauh dari batas keputusan (dalam arah yang benar tentu saja). Peluruhan eksponensial ini berarti bahwa titik-titik yang paling dekat dengan batas mengalami lebih banyak kerugian. Saat suhu turun ke 0, titik yang paling dekat dengan batas sepenuhnya mendominasi kerugian, dan kerugian ditentukan dengan tepat seberapa dekat titik terdekat.
Regresi logistik biner memiliki kehilangan lintas-entropi: mana adalah label dan adalah probabilitas yang diprediksi dalam .−ylogp−(1−y)log(1−p)yp(0,1)
Biasanya, mana adalah fungsi sigmoid. Berdasarkan parameter suhu yang diperkenalkan dalam makalah ini , saya menduga bahwa suhu mengacu pada modifikasi formulasi: , di mana adalah suhu dan saya Saya telah menjatuhkan istilah bias untuk kesederhanaan.p=σ(wTx+b)σp=σ(wTxτ)τ
Mengingat hanya istilah pertama dari kerugian, . Asumsikan semua , karena hal lain akan berarti bahwa berada di sisi yang salah dari batas keputusan dan menimbulkan kerugian tanpa batas sebagai . Karena istilah eksponensial menjadi sangat kecil dalam batas, kami menggunakan ekspansi taylor orde pertama untuk untuk menulis−ylogp=ylog(1+exp(−wTxτ))wTx>0xτ→0log(1+z)−ylogp≈yexp(−wTxτ)
Hingga saat ini, kami hanya menggunakan kerugian untuk satu titik data, tetapi kerugian sebenarnya adalah . Pertimbangkan hanya label positif ( ). Maka jumlah ini didominasi oleh istilah di mana adalah yang terkecil (paling dekat dengan batas keputusan).∑iyiexp(−wTxiτ)yi=1wTxi
Ini dapat dilihat karena rasio antara suku dan suku adalah yang masuk hingga tak terhingga atau 0 sebagai , jadi hanya istilah penting.ijexp(−wTxi/τ)exp(−wTxj/τ)=exp(wTxj−wTxiτ)τ→0wTxi
Argumen simetris dapat digunakan pada istilah kedua dalam kerugian.
Oleh karena itu, hilangnya masalah regresi logistik karena suhu pergi ke 0 diminimalkan dengan memaksimalkan jarak minimum ke batas keputusan.