Di sini jawabannya mengacu pada gradien menghilang dan meledak yang telah di- sigmoid
fungsi aktivasi tetapi, saya kira, Relu
memiliki kelemahan dan itu adalah nilai yang diharapkan. tidak ada batasan untuk output Relu
dan nilai yang diharapkan tidak nol. Saya ingat waktu sebelum popularitas Relu
yang tanh
adalah yang paling populer di antara mesin ahli belajar daripada sigmoid
. Alasannya adalah bahwa nilai yang diharapkan tanh
sama dengan nol dan dan itu membantu belajar di lapisan yang lebih dalam untuk menjadi lebih cepat di jaring saraf. Relu
tidak memiliki karakteristik ini, tetapi mengapa itu bekerja dengan baik jika kita mengesampingkan keunggulan turunannya. Selain itu, saya kira turunannya juga dapat terpengaruh. Karena aktivasi (output dariRelu
) dilibatkan untuk menghitung aturan pembaruan.
CNN
normalisasi normal keluaran relu
tidak umum? Setidaknya saya belum pernah melihat itu.