Jadi, saat ini fungsi aktivasi yang paling umum digunakan adalah Re-Lu. Jadi saya menjawab pertanyaan ini. Apa tujuan dari fungsi aktivasi di Neural Networks? dan ketika menulis jawaban itu menurut saya, bagaimana tepatnya Re-Lu dapat memperkirakan fungsi non-linear?
Dengan definisi matematika murni, tentu saja, ini merupakan fungsi non-linear karena tikungan tajam, tetapi jika kita membatasi diri hanya pada bagian positif atau negatif dari sumbu x saja, maka liniernya di wilayah tersebut. Katakanlah kita mengambil seluruh sumbu x juga, kemudian juga agak linier (tidak dalam arti matematis yang ketat) dalam arti bahwa ia tidak dapat secara memuaskan mendekati fungsi lengkung seperti gelombang sinus ( 0 --> 90
) dengan satu simpul lapisan tersembunyi yang dimungkinkan oleh sigmoid fungsi aktivasi.
Jadi apa intuisi di balik fakta bahwa Re-Lu digunakan dalam NN, memberikan kinerja yang memuaskan (saya tidak menanyakan tujuan Re-lu) meskipun mereka agak linier? Atau apakah fungsi-fungsi non linier seperti sigmoid dan tanh kadang-kadang dilempar ke tengah jaringan?
EDIT: Sesuai komentar @ Eka, Re-Lu memperoleh kemampuannya dari diskontinuitas yang bertindak di lapisan dalam Neural Net. Apakah ini berarti bahwa Re-Lu bagus selama kita menggunakannya di Deep NN's dan bukan NN yang dangkal?
max(0,x)
bertindak dalam lapisan dalam jaringan saraf. Ada penelitian terbuka di mana mereka menghitung fungsi-fungsi non-linear menggunakan jaringan linear yang dalam di sini adalah tautan blog.openai.com/nonlinear-computation-in-linear-networks