apa yang membuat jaringan saraf model klasifikasi nonlinier?

18

Saya mencoba memahami makna matematika dari model klasifikasi non-linear:

Saya baru saja membaca sebuah artikel yang berbicara tentang jaring saraf menjadi model klasifikasi non-linear.

Tapi saya baru sadar bahwa:

Lapisan pertama:

$h_1=x_1∗w_{x1h1}+x_2∗w_{x1h2}$

$h_2=x_1∗w_{x2h1}+x_2∗w_{x2h2}$

Lapisan selanjutnya

$y=b∗w_{by}+h_1∗w_{h1y}+h_2∗w_{h2y}$

Dapat disederhanakan menjadi

$=b′+(x_1∗w_{x1h1}+x_2∗w_{x1h2})∗w_{h1y}+(x_1∗w_{x2h1}+x_2∗w_{x2h2})∗w_{h2y}$

$=b′+x_1(w_{h1y}∗w_{x1h1}+w_{x2h1}∗w_{h2y})+x_2(w_{h1y}∗w_{x1h1}+w_{x2h2}∗w_{h2y})$

Jaringan neural dua lapis hanyalah regresi linier sederhana

$=b^′+x_1∗W_1^′+x_2∗W_2^′$

Ini dapat ditunjukkan ke sejumlah lapisan, karena kombinasi linier dari sejumlah bobot pun linier.

Apa yang benar-benar membuat jaring saraf model klasifikasi non linier?
Bagaimana fungsi aktivasi akan berdampak pada nonlinieritas model?
Bisakah Anda jelaskan?

neural-networks nonlinear-regression nonlinear

— Alvaro Joao
sumber

18

Saya pikir Anda lupa fungsi aktivasi dalam node dalam jaringan saraf, yang non-linear dan akan membuat seluruh model non-linear.

Dalam rumus Anda tidak sepenuhnya benar, di mana,

h_{1} \neq w_{1} x_{1} + w_{2} x_{2}

$h_1 \neq w_1x_1+w_2x_2$

tapi

h_{1} = sigmoid (w_{1} x_{1} + w_{2} x_{2})

$h_1 = \text{sigmoid}(w_1x_1+w_2x_2)$

di mana fungsi sigmoid seperti ini, $\text{sigmoid}(x)=\frac 1 {1+e^{-x}}$

Mari kita gunakan contoh numerik untuk menjelaskan dampak dari fungsi sigmoid, misalkan Anda memiliki lalu . Di sisi lain, misalkan Anda memiliki , dan hampir sama dengan , yang non-linear. $w_1x_1+w_2x_2=4$ $\text{sigmoid}(4)=0.99$ $w_1x_1+w_2x_2=4000$ $\text{sigmoid}(4000)=1$ $\text{sigmoid}(4)$

Selain itu, saya pikir slide 14 dalam tutorial ini dapat menunjukkan di mana Anda melakukan kesalahan sebenarnya. Untuk tolong bukan otuput bukan -7.65, tetapi $H_1$ $\text{sigmoid}(-7.65)$

— Haitao Du
sumber

1

Bagaimana fungsi aktivasi akan berdampak pada non linieritas model? Bisakah Anda jelaskan?

— Alvaro Joao

3

Anda benar bahwa beberapa lapisan linear dapat setara dengan satu lapisan linear. Seperti jawaban lain mengatakan, fungsi aktivasi nonlinier memungkinkan klasifikasi nonlinier. Mengatakan bahwa sebuah classifier adalah nonlinier berarti bahwa ia memiliki batas keputusan nonlinier. Batas keputusan adalah permukaan yang memisahkan kelas; classifier akan memprediksi satu kelas untuk semua poin di satu sisi batas keputusan, dan kelas lain untuk semua poin di sisi lain.

Mari kita pertimbangkan situasi umum: melakukan klasifikasi biner dengan jaringan yang berisi banyak lapisan unit tersembunyi nonlinear dan unit output dengan fungsi aktivasi sigmoidal. memberikan output, adalah vektor aktivasi untuk lapisan tersembunyi terakhir, adalah vektor bobotnya ke unit output, dan adalah bias unit output. Outputnya adalah: $y$ $h$ $w$ $b$

y = σ (h w + b)

$y = \sigma(hw + b)$

di mana adalah fungsi sigmoid logistik. Output diartikan sebagai probabilitas bahwa kelasnya adalah . Kelas prediksi adalah: $\sigma$ $1$ $c$

c = {\begin{array}{cl} 0 & y \leq 0.5 \\ 1 & y > 0.5 \end{array}

$c = \left \{ \begin{array}{cl} 0 & y \le 0.5 \\ 1 & y > 0.5 \\ \end{array} \right .$

Mari kita pertimbangkan aturan klasifikasi sehubungan dengan aktivasi unit tersembunyi. Kita dapat melihat bahwa aktivasi unit tersembunyi diproyeksikan ke garis . Aturan untuk menetapkan kelas adalah fungsi dari , yang secara monoton terkait dengan proyeksi sepanjang garis. Oleh karena itu, aturan klasifikasi setara dengan menentukan apakah proyeksi sepanjang garis kurang dari atau lebih besar dari beberapa ambang batas (dalam hal ini, ambang batas tersebut diberikan oleh negatif bias). Ini berarti bahwa batas keputusan adalah hyperplane yang ortogonal ke garis, dan memotong garis pada titik yang sesuai dengan ambang batas itu. $hW + b$ $y$

Saya katakan sebelumnya bahwa batas keputusan adalah nonlinier, tetapi hyperplane adalah definisi batas linear. Tapi, kami telah mempertimbangkan batas sebagai fungsi dari unit tersembunyi tepat sebelum output. Aktivasi unit tersembunyi adalah fungsi nonlinier dari input asli, karena lapisan tersembunyi sebelumnya dan fungsi aktivasi nonliniernya. Salah satu cara untuk berpikir tentang jaringan adalah memetakan data secara nonlinier ke beberapa ruang fitur. Koordinat di ruang ini diberikan oleh aktivasi unit tersembunyi terakhir. Jaringan kemudian melakukan klasifikasi linier dalam ruang ini (regresi logistik, dalam hal ini). Kita juga dapat berpikir tentang batas keputusan sebagai fungsi dari input asli. Fungsi ini akan nonlinier, sebagai konsekuensi dari pemetaan nonlinier dari input ke aktivasi unit tersembunyi.

Posting blog ini menunjukkan beberapa angka bagus dan animasi dari proses ini.

— pengguna20160
sumber

1

Ketidaklinieran berasal dari fungsi aktivasi sigmoid, 1 / (1 + e ^ x), di mana x adalah kombinasi linear dari prediktor dan bobot yang Anda rujuk dalam pertanyaan Anda.

Omong-omong, batas-batas aktivasi ini adalah nol dan satu karena penyebutnya menjadi terlalu besar sehingga fraksi mendekati nol, atau e ^ x menjadi sangat kecil sehingga fraksi mendekati 1/1.

— Ryan Zotti
sumber