Dapatkah jaringan saraf (mis., Jaringan saraf konvolusional) memiliki bobot negatif?

13

Apakah mungkin untuk memiliki bobot negatif (setelah zaman yang cukup) untuk jaringan saraf convolutional yang mendalam ketika kita menggunakan ReLU untuk semua lapisan aktivasi?

— RockTheStar
sumber

Saya tidak melihat alasan mengapa mereka tidak bisa negatif. Apakah ada alasan / pengamatan tertentu yang ada dalam pikiran Anda?

— Sobi

Saya hanya membayangkan proses SGD dan berpikir tentang apakah bobot negatif itu umum dan mungkin.

— RockTheStar

Dia berpikir bahwa karena "berat" menyerupai sinapsis, hubungan antara neuron, jadi bagaimana kita bisa memiliki sinapsis -2 menuju neuron ?? Saya tersandung di sini setelah mencari hal yang sama persis di google ... Saya kira itu mungkin saja, itu bisa berarti akhirnya sinaps atau tautan yang hilang dan "hop" untuk mencapai b dari sisi lain yang dikurangkan dari kalkulus, tapi saya tidak begitu yakin, hanya berpikir

— Coba

10

Rectified Linear Units (ReLUs) hanya membuat output neuron menjadi non-negatif. Namun, parameter jaringan dapat, dan akan, menjadi positif atau negatif tergantung pada data pelatihan.

Berikut adalah dua alasan yang dapat saya pikirkan saat ini yang membenarkan (secara intuitif) mengapa beberapa parameter menjadi negatif:

pengaturan parameter (alias pembusukan berat); variasi dalam nilai parameter memungkinkan prediksi, dan jika parameter dipusatkan di sekitar nol (yaitu rata-rata mendekati nol), maka norma (yang merupakan pengatur standar) rendah. $\ell 2$
meskipun gradien dari output suatu lapisan sehubungan dengan parameter lapisan tergantung pada input ke lapisan (yang selalu positif dengan asumsi bahwa lapisan sebelumnya melewati keluarannya melalui ReLU), namun, gradien kesalahan (yang datang dari lapisan yang lebih dekat ke lapisan keluaran akhir) mungkin positif atau negatif, memungkinkan SGD untuk membuat beberapa nilai parameter negatif setelah mengambil langkah gradien berikutnya. Lebih khusus lagi, misalkan , , dan menunjukkan input, output, dan parameter layer dalam jaringan saraf. Juga, biarkan menjadi kesalahan akhir jaringan yang disebabkan oleh beberapa sampel pelatihan. Gradien kesalahan sehubungan dengan dihitung sebagai $I$ $O$ $w$ $E$ $w$ $\frac{\partial E}{\partial w} = \left( \sum_{k=1}^K\frac{\partial E}{\partial O_k} \right) \cdot \frac{\partial O_k}{\partial w}$ ; perhatikan bahwa (lihat gambar di bawah): $O_k = O, \forall k$

— Sobi
sumber

1

Bayangkan Anda memiliki bobot optimal yang semuanya non-negatif.

Sekarang invert beberapa variabel input . Jaringan optimal untuk pengaturan ini adalah dengan bobot tepi terbalik, sehingga bobot baru tidak-positif. $x'_i = -x_i$ $\{x'_i,y\}$

— nakajuice
sumber

-3

Kecuali jika Anda menggunakan fungsi aktivasi lain misalnya Leaky ReLU. Berat lapisan yang diperbaiki setelah yang pertama adalah non-negatif terlepas dari berapa banyak zaman dalam pelatihan.

— pateheo
sumber

1

Terima kasih banyak! Bisakah Anda menjelaskan sedikit lebih banyak detial tentang bagaimana LeLUy ReLU dapat menyebabkan bobot negatif?

— RockTheStar

Sepertinya klaim itu tidak benar. Saya telah menjalankan pelatihan pada jaringan yang diaktifkan ReLU, matriks dalam transformasi affine ("Ws") dan offset ("b's"), yang saya anggap sebagai referensi dalam pertanyaan ini sebagai bobot, memang mendapatkan nilai negatif.

— mereka