Jadi, baru-baru ini ada kertas Normalisasi Layer . Ada juga implementasi di Keras.
Tapi saya ingat ada makalah yang berjudul Normalisasi Batch Berulang (Cooijmans, 2016) dan Batch Normalisasi Jaringan Saraf Berulang (Laurent, 2015). Apa perbedaan antara ketiganya?
Ada bagian Pekerjaan Terkait ini yang saya tidak mengerti:
Normalisasi batch sebelumnya telah diperluas ke jaringan saraf berulang [Laurent et al., 2015, Amodei et al., 2015, Cooijmans et al., 2016]. Pekerjaan sebelumnya [Cooijmans et al., 2016] menunjukkan kinerja terbaik dari normalisasi batch berulang diperoleh dengan menjaga statistik normalisasi independen untuk setiap langkah waktu. Para penulis menunjukkan bahwa menginisialisasi parameter gain di lapisan normalisasi batch berulang menjadi 0,1 membuat perbedaan yang signifikan dalam kinerja akhir model. Pekerjaan kami juga terkait dengan normalisasi berat badan [Salimans dan Kingma, 2016]. Dalam normalisasi berat, alih-alih varians, norma L2 dari bobot yang masuk digunakan untuk menormalkan input yang dijumlahkan ke neuron.. Menerapkan salah satu normalisasi berat atau normalisasi bets menggunakan statistik yang diharapkan setara dengan memiliki parameterisasi yang berbeda dari jaringan saraf umpan maju. Parameterisasi ulang dalam jaringan ReLU dipelajari dalam Pathnormalized SGD [Neyshabur et al., 2015]. Metode normalisasi layer yang kami usulkan, bagaimanapun, bukan parameterisasi ulang dari jaringan saraf asli. Model lapisan dinormalisasi, dengan demikian, memiliki sifat invarian yang berbeda dari metode lain , yang akan kita pelajari di bagian berikut