Mengapa fungsi aktivasi harus monoton?

Saat ini saya sedang mempersiapkan ujian pada jaringan saraf. Dalam beberapa protokol dari ujian sebelumnya saya membaca bahwa fungsi aktivasi neuron (dalam multilayer perceptrons) harus monotonik.

Saya mengerti bahwa fungsi aktivasi harus dapat dibedakan, memiliki turunan yang bukan 0 pada kebanyakan poin, dan bersifat non-linear. Saya tidak mengerti mengapa menjadi monoton itu penting / bermanfaat.

Saya tahu fungsi aktivasi berikut dan itu monoton:

ReLU
Sigmoid
Tanh
Softmax: Saya tidak yakin apakah definisi monotonitas berlaku untuk fungsi dengan $f: \mathbb{R}^n \rightarrow \mathbb{R}^m$ $n, m > 1$
Softplus
(Identitas)

Namun, saya masih tidak dapat melihat alasan mengapa misalnya . $\varphi(x) = x^2$

Mengapa fungsi aktivasi harus monoton?

(Pertanyaan sisi terkait: apakah ada alasan mengapa fungsi logaritma / eksponensial tidak digunakan sebagai fungsi aktivasi?)

machine-learning neural-network

— Martin Thoma
sumber

FYI: Daftar lengkap fungsi aktivasi dalam jaringan saraf dengan pro / kontra

— Franck Dernoncourt

@ MartinThoma. Apakah Anda yakin softmax adalah monoton?

— Media

Terima kasih @Media. Untuk menjawab pertanyaan Anda: Saya tidak yakin apa arti "monoton" bahkan untuk fungsi dalam dengan . Untuk softmax adalah konstan dan karenanya monoton. Tetapi tanpa mendefinisikan untuk elemen dalam dengan saya tidak berpikir monoton masuk akal.

f : R^{n} \to R^{m}

$f:R^n \rightarrow R^m$

m > 1

$m > 1$

m = 1

$m=1$

<

$<$

R^{n}

$R^n$

n > 1

$n>1$

— Martin Thoma

@ MartinThoma Terima kasih, sebenarnya itu juga pertanyaan saya. Saya tidak tahu, dan masih tidak tahu, apakah ada ekstensi untuk fungsi monoton dengan beberapa output. Hal-hal matematika, Anda tahu!

— Media

Jawaban:

Kriteria monotonisitas membantu jaringan saraf untuk menyatu lebih mudah menjadi pengklasifikasi yang lebih akurat. Lihat jawaban stackexchange dan artikel wikipedia ini untuk perincian dan alasan lebih lanjut.

Namun, kriteria monotonisitas tidak wajib untuk fungsi aktivasi - Juga dimungkinkan untuk melatih jaring saraf dengan fungsi aktivasi non-monotonik. Semakin sulit untuk mengoptimalkan jaringan saraf. Lihat jawaban Yoshua Bengio .

— David Dao
sumber

-1

Saya akan memberikan alasan yang lebih matematis tentang mengapa fungsi monoton membantu!

Menggunakan http://mathonline.wikidot.com/lebesgue-s-theorem-for-the-differabilityability-of-monotone-fun , dengan asumsi fungsi aktivasi kami menjadi monoton, kita dapat mengatakan bahwa pada garis nyata, fungsi kita akan menjadi terdiferensiasi. Jadi, gradien fungsi aktivasi tidak akan menjadi fungsi yang tidak menentu. Akan lebih mudah menemukan minima yang kita cari. (tidak mahal secara komputasi)

Fungsi eksponensial dan Logaritmik adalah fungsi yang indah tetapi tidak dibatasi (Jadi, kebalikan dari Teorema Lebesgue tidak benar karena Exp dan Log adalah fungsi yang dapat dibedakan yang tidak dibatasi pada garis nyata). Jadi, mereka gagal ketika kita ingin mengklasifikasikan contoh kita pada tahap akhir. Sigmoid dan tanh bekerja sangat baik karena mereka memiliki gradien yang mudah dihitung dan jangkauannya masing-masing (0,1) dan (-1,1).

— Rohit Rawat
sumber

Ada banyak fungsi yang sangat berbeda, tetapi tidak monoton. Jadi mengapa fungsi monoton membantu?

— Martin Thoma