NeuralNetwork lapisan tunggal dengan aktivasi ReLU sama dengan SVM?


10

Misalkan saya memiliki jaringan neural single layer yang sederhana, dengan n input dan output tunggal (tugas klasifikasi biner). Jika saya mengatur fungsi aktivasi di node output sebagai fungsi sigmoid- maka hasilnya adalah classifier Logistic Regression.

Dalam skenario yang sama ini, jika saya mengubah aktivasi output ke ReLU (unit linear yang diperbaiki), lalu apakah struktur yang dihasilkan sama atau mirip dengan SVM?

Jika tidak mengapa?


apakah Anda memiliki hipotesis mengapa itu bisa terjadi? alasan mengapa satu perceptron = logistik persis karena aktivasi - mereka pada dasarnya model yang sama, secara matematis (meskipun mungkin dilatih secara berbeda) - bobot linier + sigmoid diterapkan pada perkalian matriks. SVM bekerja sangat berbeda - mereka mencari garis terbaik untuk memisahkan data - mereka lebih geometris daripada "bobot" / "matrixy". Bagi saya, tidak ada apapun tentang ReLU yang seharusnya membuat saya berpikir = ah, mereka sama dengan SVM. (Logistik dan linear svm cenderung berkinerja sangat mirip)
metjush

tujuan max-margin dari svm dan fungsi aktivasi relu terlihat sama. Karena itu pertanyaannya.
AD

"SVM bekerja sangat berbeda - mereka mencari garis terbaik untuk memisahkan data - mereka lebih geometris daripada" berbobot "/" matrixy ". Itu sedikit bergelombang - SEMUA pengklasifikasi linier mencari garis terbaik untuk memisahkan data termasuk regresi logistik dan perceptron
AD

Jawaban:


11

E=max(1ty,0)

Agar kehilangan jaringan dalam bentuk yang sama dengan SVM, kami hanya dapat menghapus fungsi aktivasi non-linear dari lapisan keluaran, dan menggunakan hilangnya engsel untuk propagasi balik.

E=ln(1+exp(ty))

Jadi dalam hal fungsi kerugian, SVM dan regresi logistik cukup dekat, meskipun SVM menggunakan algoritma yang sangat berbeda untuk pelatihan dan inferensi berdasarkan vektor dukungan.

Ada diskusi yang bagus tentang hubungan SVM dan regresi logistik di bagian 7.1.2 buku Pengenalan Pola dan Pembelajaran Mesin .

masukkan deskripsi gambar di sini


terima kasih telah menunjuk buku ini. Jadi saya mendapatkan perasaan bahwa selain dari fungsi aktivasi, perbedaan sebenarnya adalah dalam algoritma optimasi yang digunakan. Untuk LR kita dapat menggunakan gradient descent tak terbatas sederhana, sedangkan dalam SVM kita biasanya menyelesaikan optimasi terbatas.
AD
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.