Apa manfaat menggunakan ReLU dibandingkan softplus sebagai fungsi aktivasi?

21

Sering disebutkan bahwa unit linear yang diperbaiki (ReLU) telah menggantikan unit softplus karena mereka linier dan lebih cepat untuk dikomputasi.

Apakah softplus itu masih memiliki keuntungan menginduksi sparsity atau apakah itu terbatas pada ReLU?

Alasan saya bertanya adalah saya bertanya-tanya tentang konsekuensi negatif dari kemiringan nol ReLU. Bukankah properti ini "menjebak" unit di nol di mana mungkin bermanfaat untuk memberi mereka kemungkinan pengaktifan kembali?

machine-learning neural-networks

— brockl33
sumber

apakah Anda pernah menemukan jawaban untuk ini?

— Charlie Parker

4

Saya menemukan jawaban untuk pertanyaan Anda di Bagian 6.3.3 dari buku Pembelajaran Mendalam . (Goodfellow et. Al, 2016):

Penggunaan softplus umumnya tidak disarankan. ... orang mungkin mengharapkannya untuk memiliki keuntungan lebih dari penyearah karena dapat dibedakan di mana-mana atau karena jenuh kurang sepenuhnya, tetapi secara empiris tidak.

Sebagai referensi untuk mendukung klaim ini mereka mengutip kertas Deep Sparse Rectifier Neural Networks (Glorot et. Al, 2011).

— Alexander Shchur
sumber

1

Saya pikir kita perlu lebih banyak klarifikasi tentang "tetapi secara empiris tidak."

— nbro

2

ReLU memang dapat dimatikan secara permanen, khususnya di bawah tingkat pembelajaran yang tinggi. Ini adalah motivasi di balik ReLU yang bocor, dan aktivasi ELU, yang keduanya memiliki gradien nol di hampir semua tempat.

Leaky ReLU adalah fungsi linear yang sama, seperti halnya untuk ReLU, sangat cepat untuk dihitung. ELU memiliki keunggulan dibandingkan softmax dan ReLU bahwa itu berarti output lebih dekat ke nol, yang meningkatkan pembelajaran.

— Hugh Perkins
sumber

Apa artinya "hampir di mana-mana"?

— nbro

1

"Hampir di mana-mana" adalah istilah teknis yang berarti sesuatu seperti "kecuali pada beberapa titik yang sangat kecil". Misalnya, ReLU yang bocor tidak memiliki gradien yang ditentukan pada x = 0.

— Hugh Perkins