Bagaimana SVMs = Pencocokan Templat?

Saya membaca tentang SVM dan mengetahui bahwa mereka menyelesaikan masalah optimisasi dan ide margin maksimum sangat masuk akal.

Sekarang, menggunakan kernel mereka bahkan dapat menemukan batas pemisahan non-linear yang hebat.

Sejauh ini, saya benar-benar tidak tahu bagaimana SVM (mesin kernel khusus) dan mesin kernel terkait dengan jaringan saraf?

Pertimbangkan komentar oleh Yann Lecun => di sini :

kernel methods were a form of glorified template matching

dan di sini juga :

Sebagai contoh, beberapa orang terpesona oleh metode kernel karena matematika lucu yang menyertainya. Tapi, seperti yang saya katakan di masa lalu, pada akhirnya, mesin kernel adalah jaringan dangkal yang melakukan "pencocokan templat yang dimuliakan". Tidak ada yang salah dengan itu (SVM adalah metode yang hebat), tetapi memiliki keterbatasan yang harus kita sadari.

Jadi pertanyaan saya adalah:

Bagaimana SVM terkait dengan jaringan saraf? Bagaimana itu jaringan yang dangkal?
SVM memecahkan masalah optimisasi dengan fungsi objektif yang terdefinisi dengan baik, bagaimana cara melakukan pencocokan templat? Apa template di sini yang cocok dengan input?

Saya kira komentar ini membutuhkan pemahaman menyeluruh tentang ruang dimensi tinggi, jaring saraf dan mesin kernel tapi sejauh ini saya telah mencoba dan tidak dapat memahami logika di baliknya. Tetapi tentu menarik untuk dicatat hubungan antara dua teknik ml yang sangat sangat berbeda.

EDIT: Saya pikir memahami SVM dari perspektif Neural akan bagus. Saya mencari jawaban yang didukung matematika menyeluruh untuk dua pertanyaan di atas, sehingga benar-benar memahami hubungan antara SVM dan Neural Nets, baik dalam kasus SVM linear dan SVM dengan trik kernel.

— Rafael
sumber

SVM cukup mudah & cepat untuk dilatih mengingat kernel yang sesuai. Beberapa tugas tidak membutuhkan jaring saraf yang dalam.

— Vladislavs Dovgalecs

@ xeon hai, dapatkah Anda melihat jawabannya, saya kira itu perlu perbaikan. Terima kasih.

— Rafael

Bagaimana SVM terkait dengan jaringan saraf? Bagaimana itu jaringan yang dangkal?

SVM adalah jaringan saraf lapis tunggal dengan kehilangan engsel sebagai fungsi kerugian dan aktivasi linier eksklusif. Konsep telah disinggung di utas sebelumnya, seperti ini: NeuralNetwork lapisan tunggal dengan aktivasi RelU sama dengan SVM?

SVM memecahkan masalah optimisasi dengan fungsi objektif yang terdefinisi dengan baik, bagaimana cara melakukan pencocokan templat? Apa template di sini yang cocok dengan input?

Matriks Gram (Matriks Kernel, jika Anda mau) adalah ukuran kesamaan. Karena SVM memungkinkan solusi yang jarang, prediksi menjadi masalah membandingkan sampel Anda dengan templat, yaitu vektor dukungan.

— Pembakar
sumber

terima kasih atas jawabannya, tolong jelaskan sedikit lebih banyak dengan beberapa matematika lebih disukai. Itu akan sangat luar biasa :)

— Rafael

Saya kurang lebih memahami hal pencocokan template, tetapi saya tidak mendapatkan pernyataan: Karena SVM memungkinkan solusi jarang .. apa yang harus dilakukan solusi jarang di sini? Prediksi menurut definisi dilakukan dengan menimbang kesamaan dengan templat, jadi saya tidak mendapatkan dari mana sparsity berasal. Juga, tolong tambahkan beberapa baris mengenai fungsi aktivasi kehilangan engsel. Terima kasih banyak :)

— Rafael