Fungsi ReLU adalah f( x ) = maks ( 0 , x ) .Biasanya ini diterapkan elemen-bijaksana untuk output dari beberapa fungsi lain, seperti produk vektor-matriks. Dalam penggunaan MLP, unit penyearah menggantikan semua fungsi aktivasi lainnya kecuali mungkin lapisan pembacaan. Tapi saya kira Anda bisa mencampur dan mencocokkan mereka jika Anda mau.
Salah satu cara ReLU meningkatkan jaringan saraf adalah dengan mempercepat pelatihan. Komputasi gradien sangat sederhana (0 atau 1 tergantung pada tanda x ). Juga, langkah komputasi ReLU mudah: setiap elemen negatif diatur ke 0,0 - tanpa eksponensial, tidak ada operasi perkalian atau pembagian.
Gradien jaringan singgung logistik dan hiperbolik lebih kecil daripada bagian positif dari ReLU. Ini berarti bahwa bagian positif diperbarui lebih cepat saat pelatihan berlangsung. Namun, ini harus dibayar. Gradien 0 di sebelah kiri memiliki masalah sendiri, yang disebut "dead neuron," di mana pembaruan gradien menetapkan nilai yang masuk ke ReLU sehingga output selalu nol; unit ReLU yang dimodifikasi seperti ELU (atau LeLU Leaky, atau PReLU, dll.) dapat memperbaiki hal ini.
ddxReLU ( x ) = 1 ∀ x > 0. Sebaliknya, gradien unit sigmoid paling banyak0,25; di sisi lain, tingkattanhlebih baik untuk input di wilayah dekat 0 sejak0,25 < ddxtanh( x ) ≤ 1 ∀ x ∈ [ - 1,31 , 1,31 ](kurang-lebih).