Apa hubungan antara SVM dan kehilangan engsel?

Kolega saya dan saya mencoba untuk membungkus kepala kami di sekitar perbedaan antara regresi logistik dan SVM. Jelas mereka mengoptimalkan fungsi tujuan yang berbeda. Apakah SVM sesederhana mengatakan itu adalah klasifikasi diskriminatif yang hanya mengoptimalkan kehilangan engsel? Atau lebih kompleks dari itu? Bagaimana vektor pendukung berperan? Bagaimana dengan variabel slack? Mengapa Anda tidak dapat memiliki SVM yang dalam sebagaimana Anda tidak dapat memiliki jaringan saraf yang dalam dengan fungsi aktivasi sigmoid?

— Simon
sumber

Inilah upaya saya untuk menjawab pertanyaan Anda:

Apakah SVM sesederhana mengatakan itu adalah klasifikasi diskriminatif yang hanya mengoptimalkan kehilangan engsel? Atau lebih kompleks dari itu? Ya, bisa dibilang begitu. Juga, jangan lupa bahwa itu juga mengatur model. Saya tidak akan mengatakan SVM lebih kompleks dari itu, namun, penting untuk menyebutkan bahwa semua pilihan tersebut (mis. Kehilangan engsel dan regularisasi ) memiliki interpretasi matematika yang tepat dan tidak sewenang-wenang. Itulah yang membuat SVM sangat populer dan kuat. Sebagai contoh, kehilangan engsel adalah batas atas terus menerus dan cembung untuk kehilangan tugas yang, untuk masalah klasifikasi biner, adalah kerugian . Perhatikan bahwa $L_2$ $0/1$ $0/1$ kerugian adalah non-cembung dan terputus-putus. Cembung kehilangan engsel membuat seluruh tujuan pelatihan cembung SVM. Fakta bahwa itu adalah batas atas untuk hilangnya tugas menjamin bahwa minimizer dari batas tidak akan memiliki nilai buruk pada hilangnya tugas. dapat diartikan secara geometris sebagai ukuran margin. $L_2$
Bagaimana vektor pendukung berperan? Vektor pendukung berperan penting dalam melatih SVM. Mereka mengidentifikasi hyperplane pemisah. Biarkan menunjukkan satu set pelatihan dan menjadi set vektor dukungan yang Anda dapatkan dengan melatih SVM pada (anggap semua hiperparameter ditetapkan sebagai apriori). Jika kita membuang semua sampel non-SV dari dan melatih SVM lain (dengan nilai hiperparameter yang sama) pada sampel yang tersisa (yaitu pada ) kita mendapatkan classifier yang sama persis seperti sebelumnya! $D$ $SV(D) \subseteq D$ $D$ $D$ $SV(D)$
Bagaimana dengan variabel slack? SVM awalnya dirancang untuk masalah di mana terdapat hyperplane pemisah (yaitu hyperplane yang memisahkan sempurna sampel pelatihan dari dua kelas), dan tujuannya adalah untuk menemukan, di antara semua hyperplanes yang terpisah, hyperplane dengan margin terbesar . The marjin , dilambangkan dengan , didefinisikan untuk classifier dan pelatihan set . Dengan asumsi sempurna memisahkan semua contoh dalam , kita memiliki , yang merupakan jarak contoh pelatihan terdekat dari hyperplane pemisah $d(w, D)$ $w$ $D$ $w$ $D$ $d(w, D) = \min_{(x, y) \in D} y \frac{w^Tx}{||w||_2}$ $w$ . Perhatikan bahwa Anda sini. Pengenalan variabel slack memungkinkan untuk melatih SVM pada masalah di mana 1) hyperplane pemisah tidak ada (yaitu data pelatihan tidak dapat dipisahkan secara linear), atau 2) Anda senang (atau ingin) berkorban membuat beberapa kesalahan (bias lebih tinggi) untuk generalisasi yang lebih baik (varian lebih rendah). Namun, hal ini datang pada harga melanggar beberapa interpretasi matematika dan geometris konkret dari SVMs tanpa variabel kendur (misalnya interpretasi geometris margin). $y \in \{+1, -1\}$
Mengapa Anda tidak bisa memiliki SVM yang dalam? Tujuan SVM adalah cembung. Lebih tepatnya, itu adalah kuadrat; itu karena regularizer adalah kuadratik dan kehilangan engsel secara linear. Tujuan pelatihan dalam model hierarkis yang mendalam, bagaimanapun, jauh lebih kompleks. Secara khusus, mereka bukan cembung. Tentu saja, orang dapat merancang model diskriminatif hirarkis dengan kehilangan engsel dan regularisasi dll., Tetapi, itu tidak akan disebut SVM. Bahkan, kehilangan engsel biasanya digunakan dalam DNN (Deep Neural Networks) untuk masalah klasifikasi. $L_2$ $L_2$

— Sobi
sumber