4
Bagaimana fungsi aktivasi bujursangkar menyelesaikan masalah gradien hilang dalam jaringan saraf?
Saya menemukan unit linear diperbaiki (ReLU) dipuji di beberapa tempat sebagai solusi untuk masalah gradien menghilang untuk jaringan saraf. Artinya, seseorang menggunakan maks (0, x) sebagai fungsi aktivasi. Ketika aktivasi positif, jelas bahwa ini lebih baik daripada, katakanlah, fungsi aktivasi sigmoid, karena derivasiasinya selalu 1 bukannya nilai kecil sewenang-wenang untuk …