Pada dasarnya, pertanyaan saya adalah bahwa dalam multilayer Perceptrons, perceptrons digunakan dengan fungsi aktivasi sigmoid. Sehingga dalam aturan pembaruan dihitung sebagai
Bagaimana perbedaan "sigmoid" Perceptron ini dari regresi logistik?
Saya akan mengatakan bahwa perceptron sigmoid satu-lapisan setara dengan regresi logistik dalam arti bahwa keduanya menggunakan dalam aturan pembaruan. Juga, keduanya mengembalikan dalam prediksi. Namun, dalam multilayer perceptrons, fungsi aktivasi sigmoid digunakan untuk mengembalikan probabilitas, bukan sinyal on-off berbeda dengan regresi logistik dan perceptron satu-layer. tanda( y =1
Saya pikir penggunaan istilah "Perceptron" mungkin sedikit ambigu, jadi izinkan saya memberikan beberapa latar belakang berdasarkan pemahaman saya saat ini tentang perceptrons single-layer:
Aturan perceptron klasik
Pertama, perceptron klasik oleh F. Rosenblatt di mana kita memiliki fungsi langkah:
untuk memperbarui bobot
Sehingga dihitung sebagai
Keturunan Gradien
Dengan menggunakan gradient descent, kami mengoptimalkan (meminimalkan) fungsi biaya
di mana kita memiliki angka "nyata", jadi saya melihat ini pada dasarnya analog dengan regresi linier dengan perbedaan bahwa output klasifikasi kami di-threshold.
Di sini, kami mengambil langkah ke arah negatif dari gradien ketika kami memperbarui bobot
Tetapi di sini, kita memiliki alih-alih
Selain itu, kami menghitung jumlah kesalahan kuadrat untuk lulus penuh atas seluruh dataset pelatihan (dalam mode pembelajaran batch) berbeda dengan aturan perceptron klasik yang memperbarui bobot saat sampel pelatihan baru tiba (analog ke penurunan gradien stokastik - online belajar).
Fungsi aktivasi Sigmoid
Sekarang, inilah pertanyaan saya:
Dalam multilayer Perceptrons, perceptrons digunakan dengan fungsi aktivasi sigmoid. Sehingga dalam aturan pembaruan dihitung sebagai
Bagaimana perbedaan "sigmoid" Perceptron ini dari regresi logistik?