Kesenjangan eksponensial pada lapisan jaringan saraf

Saya membacanya di sini bahwa ada keluarga fungsi yang memerlukan node pada jaringan saraf dengan paling banyak lapisan untuk mewakili fungsi sementara hanya perlu jika jaringan saraf memiliki setidaknya lapisan. Itu merujuk pada sebuah makalah oleh Hastad. Saya tidak menemukannya. Bisakah seseorang memberi tahu saya judul makalahnya? Saya pikir ini adalah hasil teoritis yang sangat menarik. $\mathcal{O}(2^n)$ $d - 1$ $\mathcal{O}(n)$ $d$

cc.complexity-theory reference-request

— jakab922
sumber

referensi yang Anda sebutkan menyatakan telah terbukti untuk gerbang logika, neuron formal, dan RBF, dan tampaknya menyatakan Hastad membuktikan hasil ini untuk RBF (basis radial fns, "kasus terakhir").

— vzn

mungkin ada beberapa handwaving yang terjadi di sini, kompleksitas NNs tampaknya setidaknya sama sulitnya dengan kompleksitas sirkuit (tapi belum terlihat yang terbukti) yang masih penuh dengan banyak masalah terbuka. di tempat lain pertanyaan ini muncul oleh pertandingan terkait adalah relevan, kekuatan komputasi jaringan saraf tcs.se (ps, bagus untuk melihat beberapa pertanyaan tentang pembelajaran mendalam di sini & bidang paling tidak secara sementara menghubungkan ke TCS)

— vzn

Jawaban:

Makalah yang biasanya orang kutip adalah Batas Bawah yang Hampir Optimal untuk Sirkuit Kedalaman Kecil , yang muncul di STOC 1986. Hasil utama yang berkaitan dengan pertanyaan Anda adalah:

Terdapat sekelompok fungsi yang menerima ukuran linier, sirkuit kedalaman (dari kipas-dalam tanpa batas DAN / ATAU dan TIDAK) yang membutuhkan ukuran eksponensial pada kedalaman . $k$ $k-1$

Apa yang mungkin lebih relevan adalah kenyataan bahwa mengakui pemisahan eksponensial antara kedalaman 3 dan kedalaman 2 $\mathsf{TC}^0$ . Ini relevan karena ambang batas umum digunakan dalam jaringan yang dalam.

— Suresh Venkat
sumber

mungkin ini dikutip dalam penelitian neural net oleh beberapa & melihat analogi dasar tetapi memiliki zilch aktual / mengarahkan ref ke jaringan saraf. untuk mengisinya, seorang ref yang secara resmi menggunakan makalah ini hasilnya dalam kerangka neural akan sangat berharga, jika referral semacam itu ada.

— vzn

Biasanya dikutip sebagai intuisi mengapa kedalaman itu penting. Saya pikir itu penggunaan yang sah. Namun, itu bukan satu-satunya contoh kedalaman yang lebih besar yang lebih kuat.

— Suresh Venkat

@SureshVenkat Apakah ada ulasan / paparan yang lebih modern tentang hasil Hastad ini di atas? (Saya dapat melihat tulisan-tulisan baru PARITY tidak dalam AC ^ 0 bukti tetapi tidak dari hasil khusus lainnya di koran)

— gradstudent

Secara literal dinyatakan, masalah memisahkan jaring saraf secara eksponensial dari kedalaman d dari kedalaman d-1, untuk semua d, terbuka, sejauh yang saya ketahui. Ketika "fungsi aktivasi" Anda adalah fungsi ambang linier misalnya, terbuka apakah semua jaring dari semua kedalaman d dapat disimulasikan, dengan peningkatan ukuran polinomial, pada kedalaman 3.

— Ryan Williams
sumber

Apakah Anda memiliki model yang lebih umum dari jaring saraf dalam pikiran dari

atau perceptrons disebutkan dalam dua jawaban lain?

{T C}^{0}

$\mathsf{TC}^0$

— András Salamon

Yah, saya sedang berbicara tentang sirkuit yang terdiri dari fungsi ambang linier kedalaman konstan. Yang tidak lebih umum dari

kedalaman konstan, namun Anda perlu lebih mendalam konstan untuk mensimulasikan fungsi threshold linear dengan

. Lihat Goldmann, Hastad, Razborov citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.6.1336

T C^{0}

$TC^0$

T C^{0}

$TC^0$

— Ryan Williams

R^{n} \to R

$\mathbb{R}^n \rightarrow \mathbb{R}$

Baca konten yang ditautkan dalam pertanyaan, tidak ada yang disebutkan tentang membatasi fungsi dari bentuk itu dan fungsi aktivasi tidak dibatasi untuk ReLU.

— Ryan Williams

R^{n} \to R

$\mathbb{R}^n \rightarrow \mathbb{R}$

$d$ $d+1$

$\mathsf{PP}^{\mathsf{PH}}$

Perceptrons sering disebut sebagai model untuk jaringan saraf. Penulisnya adalah mahasiswa Johan Håstad, jadi ini mungkin referensi yang Anda cari.

— Jan Johannsen
sumber