Apakah teorema aproksimasi universal untuk jaringan saraf berlaku untuk fungsi aktivasi apa pun?

8

Apakah teorema aproksimasi universal untuk jaringan saraf berlaku untuk setiap fungsi aktivasi (sigmoid, ReLU, Softmax, dll ...) atau apakah itu terbatas pada fungsi sigmoid?

Pembaruan: Seperti yang ditunjukkan oleh shimao di komentar, itu tidak berlaku untuk semua fungsi. Jadi untuk kelas fungsi aktivasi apa yang dimilikinya?

neural-networks approximation

— Skander H.
sumber

1

Saya percaya ini berlaku untuk semua yang Anda daftarkan, tetapi tidak berlaku untuk fungsi aktivasi yang sewenang-wenang (pertimbangkan f (x) = 0)

— shimao

Baca makalah Cybenko (1989). Fungsi harus kompak yaitu harus didefinisikan pada himpunan bagian kompak dari R ^ n

— Snehanshu Saha

Jika ada banyak diskontinuitas, itu dapat diatasi juga dengan menambahkan lebih banyak lapisan tersembunyi. Ini bekerja untuk SBAF juga.

— Snehanshu Saha

Ini tidak masuk akal, karena setiap fungsi didefinisikan

R^{n}

$\mathbb{R}^n$ didefinisikan pada himpunan bagian yang kompak itu!

— Whuber

8

The Artikel wikipedia memiliki pernyataan resmi.

Membiarkan $\varphi$ menjadi fungsi yang tidak konstan, terbatas, dan berkelanjutan.

— Matthew Drury
sumber

8

Itu mencakup sigmoid dan softmax tetapi tidak ReLU. Menurut makalah ini , properti juga berlaku untuk beberapa fungsi yang tidak terikat seperti ReLU dan lainnya.

— jodag

4

Jaringan feedforward multilayer adalah referensi yang diterbitkan yang membahas masalah ini. Fungsi aktivasi polinom tidak memiliki properti aproksimasi universla.

NN pracetak dengan fungsi aktivasi tidak terbatas mencakup banyak fungsi aktivasi. Itu terlihat hanya pada lapisan tersembunyi NN. Ini berat pada analisis Fourier.

Saya menekankan bahwa referensi kedua adalah pra-cetak karena saya tidak dapat menjamin keakuratannya. Leshno et alt 1993 adalah publikasi yang diulas.

— VictorZurkowski
sumber

3

Makalah Kurt Hornik tahun 1991 "Kemampuan Aproksimasi dari Jaringan Multilayer Feedforward" membuktikan bahwa "jaringan feedforward multilayer standar dengan sedikitnya satu lapisan tersembunyi dan fungsi aktivasi yang tidak terikat dan tidak terikat secara acak adalah penduga universal yang berkenaan dengan $L^P(\mu)$ kriteria kinerja, untuk ukuran lingkungan input terbatas yang sewenang-wenang $\mu$ , asalkan hanya cukup banyak unit tersembunyi yang tersedia. "Dengan kata lain, hipotesis bahwa fungsi aktivasi dibatasi dan tidak konstan cukup untuk mendekati hampir semua fungsi mengingat kita dapat menggunakan unit tersembunyi sebanyak yang kita inginkan dalam jaringan saraf. makalah harus tersedia di sini: http://zmjones.com/static/statribution-learning/hornik-nn-1991.pdf

— ahli matematika
sumber