Menjadi lebih cepat atau lebih rendah adalah istilah yang relatif dan harus dipahami dalam konteks apa yang dibandingkan. Jadi, untuk memahami ini, pertama-tama kita harus mempertimbangkan bagaimana gradient descent bekerja dengan tipe lain dari fungsi aktivasi.
Contoh Pengaturan
n
z1=W1x+b1
a1=f(z1)
...
zn=Wnan−1+bn
y=f(zn)
f
Tanh dan Sigmoid - Vanishing Gradient
ff′(x)∈(−1,1)x
yW1
dfdW1=dfdWndWndWn−1...dW2dW1
0<i<n
dXidXi−1=f′(Wi−1ai−2+bi−1)×ai−2∈(−1,1)
(−1,1)f′ai−2(−1,1)
dfdW1ndfdW1
RELU dan Dead Neuron
ai>0f
dXidXi−1=ai−2
dfdW1=a1a2a3...an−1
x>0x<0
RELU dan ELU bocor
x>0x<1
Saya mengutip makalah asli untuk perbedaan antara keduanya.
Meskipun LReLU dan PReLU memiliki nilai negatif juga, mereka tidak memastikan keadaan penonaktifan yang kuat terhadap noise. ELU jenuh ke nilai negatif dengan input lebih kecil dan dengan demikian mengurangi variasi dan informasi yang diperbanyak ke depan.
Penjelasan intuitifnya seperti berikut ini. Dalam ELU, setiap kali x menjadi cukup kecil, gradien menjadi sangat kecil dan jenuh (dengan cara yang sama terjadi untuk Tanh dan Sigmoid). Gradien kecil berarti bahwa algoritma pembelajaran dapat fokus pada penyetelan bobot lain tanpa khawatir tentang interaktivitas dengan neuron jenuh.
Pertimbangkan polinomial derajat 2 yang dapat direpresentasikan sebagai permukaan halus dalam ruang 3-d. Untuk menemukan minimum lokal, algoritma gradient descent perlu mempertimbangkan kecuraman pada arah x dan y. Jika gradien keduanya negatif dalam arah x dan y, tidak jelas arah mana yang lebih baik. Jadi masuk akal untuk memilih jalan di suatu tempat di antara keduanya. Tetapi bagaimana jika kita sudah tahu semuanya datar (gradien nol) di arah x, maka menjadi no-brainer untuk pergi untuk arah y. Atau dengan kata lain, ruang pencarian Anda menjadi jauh lebih kecil.
catatan khusus
Dalam pembelajaran mendalam, ada banyak klaim tanpa cukup bukti empiris atau pemahaman mendalam untuk mendukungnya. Dalam kasus ELU, walaupun mungkin benar bahwa itu menghasilkan konvergensi yang lebih cepat untuk beberapa dataset, bisa juga benar bahwa itu membuat algoritma pembelajaran terjebak pada maksimum lokal untuk dataset yang berbeda. Kami hanya belum cukup tahu.