Dalam matematika fungsi dianggap linier setiap kali sebuah jika untuk setiap dan dalam domain memiliki properti berikut: . Menurut definisi, ReLU adalah . Oleh karena itu, jika kita membagi domain dari atau maka fungsinya linear. Namun, mudah untuk melihat bahwa . Oleh karena itu menurut definisi ReLU tidak linier. x y A f ( x ) + f ( y ) = f ( x + y ) m a x ( 0 , x ) ( - ∞ , 0 ] [ 0 , ∞ ) f ( - 1 ) + f ( 1 ) ≠ f ( 0 )f:A→BxyAf(x)+f(y)=f(x+y)max(0,x)(−∞,0][0,∞)f(−1)+f(1)≠f(0)
Namun demikian, ReLU sangat dekat dengan linier sehingga sering membingungkan orang dan bertanya-tanya bagaimana bisa digunakan sebagai aproksimasi universal. Dalam pengalaman saya, cara terbaik untuk memikirkan mereka adalah seperti jumlah Riemann. Anda dapat memperkirakan setiap fungsi kontinu dengan banyak persegi panjang kecil. Aktivasi ReLU dapat menghasilkan banyak persegi panjang kecil. Bahkan, dalam praktiknya, ReLU dapat membuat bentuk yang agak rumit dan mendekati banyak domain rumit.
Saya juga ingin mengklarifikasi poin lain. Seperti yang ditunjukkan oleh jawaban sebelumnya, neuron tidak mati di Sigmoid, tetapi menghilang. Alasan untuk ini adalah karena maksimal turunan dari fungsi sigmoid adalah 0,25. Oleh karena itu, setelah begitu banyak lapisan Anda akhirnya mengalikan gradien ini dan produk dari angka yang sangat kecil, kurang dari 1 cenderung menjadi nol dengan sangat cepat.
Karenanya, jika Anda membangun jaringan pembelajaran yang dalam dengan banyak lapisan, fungsi sigmoid Anda pada dasarnya akan stagnan dengan lebih cepat dan menjadi lebih atau kurang berguna.
Kuncinya adalah lenyapnya berasal dari mengalikan gradien bukan gradien itu sendiri.