Di sini jawabannya mengacu pada gradien menghilang dan meledak yang telah di- sigmoidfungsi aktivasi tetapi, saya kira, Relumemiliki kelemahan dan itu adalah nilai yang diharapkan. tidak ada batasan untuk output Reludan nilai yang diharapkan tidak nol. Saya ingat waktu sebelum popularitas Reluyang tanhadalah yang paling populer di antara mesin ahli belajar daripada sigmoid. Alasannya adalah bahwa nilai yang diharapkan tanhsama dengan nol dan dan itu membantu belajar di lapisan yang lebih dalam untuk menjadi lebih cepat di jaring saraf. Relutidak memiliki karakteristik ini, tetapi mengapa itu bekerja dengan baik jika kita mengesampingkan keunggulan turunannya. Selain itu, saya kira turunannya juga dapat terpengaruh. Karena aktivasi (output dariRelu ) dilibatkan untuk menghitung aturan pembaruan.
CNNnormalisasi normal keluaran relutidak umum? Setidaknya saya belum pernah melihat itu.