Normalisasi batch dan ReLU adalah solusi untuk masalah gradien yang hilang. Jika kita menggunakan normalisasi batch, haruskah kita menggunakan sigmoids? Atau adakah fitur ReLU yang menjadikannya berharga bahkan ketika menggunakan batchnorm?
Saya kira normalisasi yang dilakukan dalam batchnorm akan mengirimkan nol aktivasi negatif. Apakah itu berarti bahwa batchnorm menyelesaikan masalah "dead ReLU"?
Namun sifat tanh dan logistik yang terus menerus tetap menarik. Jika saya menggunakan batchnorm, apakah tanh akan bekerja lebih baik daripada ReLU?
Saya yakin jawabannya tergantung . Jadi, apa yang berhasil dalam pengalaman Anda, dan apa saja fitur menonjol dari aplikasi Anda?