Sering disebutkan bahwa unit linear yang diperbaiki (ReLU) telah menggantikan unit softplus karena mereka linier dan lebih cepat untuk dikomputasi.
Apakah softplus itu masih memiliki keuntungan menginduksi sparsity atau apakah itu terbatas pada ReLU?
Alasan saya bertanya adalah saya bertanya-tanya tentang konsekuensi negatif dari kemiringan nol ReLU. Bukankah properti ini "menjebak" unit di nol di mana mungkin bermanfaat untuk memberi mereka kemungkinan pengaktifan kembali?