Anda sebagian besar benar! ReLU memang memiliki masalah dengan hilangnya gradien, tetapi hanya di satu sisi, jadi kami menyebutnya sesuatu yang lain: 'masalah ReLU yang sedang sekarat'. Lihat respons stack overflow ini untuk informasi lebih lanjut: Apa masalah "dying ReLU" di jaringan saraf?
Itu perbedaan semantik kecil. Banyak fungsi (tanh dan logistik / sigmoid) memiliki turunan yang sangat mendekati nol ketika Anda berada di luar rentang operasi standar. Ini adalah masalah 'gradien hilang'. Semakin buruk Anda, semakin sulit untuk kembali ke zona yang baik. ReLU tidak menjadi lebih buruk semakin jauh Anda berada di arah positif, jadi tidak ada masalah gradien hilang (di sisi itu). Asimetri ini mungkin cukup untuk membenarkan menyebutnya sesuatu yang berbeda, tetapi idenya sangat mirip.