Dari aturan Perceptron ke Gradient Descent: Bagaimana Perceptrons dengan fungsi aktivasi sigmoid berbeda dari Regresi Logistik?

21

Pada dasarnya, pertanyaan saya adalah bahwa dalam multilayer Perceptrons, perceptrons digunakan dengan fungsi aktivasi sigmoid. Sehingga dalam aturan pembaruan dihitung sebagai $\hat{y}$

\hat{y} = \frac{1}{1 + \exp (- w^{T} x_{i})}

$\hat{y} = \frac{1}{1+\exp(-\mathbf{w}^T\mathbf{x}_i)}$

Bagaimana perbedaan "sigmoid" Perceptron ini dari regresi logistik?

Saya akan mengatakan bahwa perceptron sigmoid satu-lapisan setara dengan regresi logistik dalam arti bahwa keduanya menggunakan dalam aturan pembaruan. Juga, keduanya mengembalikan dalam prediksi. Namun, dalam multilayer perceptrons, fungsi aktivasi sigmoid digunakan untuk mengembalikan probabilitas, bukan sinyal on-off berbeda dengan regresi logistik dan perceptron satu-layer. $\hat{y} = \frac{1}{1+\exp(-\mathbf{w}^T\mathbf{x}_i)}$ $\operatorname{sign}(\hat{y} = \frac{1}{1+\exp(-\mathbf{w}^T\mathbf{x}_i)})$

Saya pikir penggunaan istilah "Perceptron" mungkin sedikit ambigu, jadi izinkan saya memberikan beberapa latar belakang berdasarkan pemahaman saya saat ini tentang perceptrons single-layer:

Aturan perceptron klasik

Pertama, perceptron klasik oleh F. Rosenblatt di mana kita memiliki fungsi langkah:

Δ w_{d} = η (y_{i} - \hat{y_{i}}) x_{i d} y_{i}, \hat{y_{i}} \in {- 1, 1}

$\Delta w_d = \eta(y_{i} - \hat{y_i})x_{id} \quad\quad y_{i}, \hat{y_i} \in \{-1,1\}$

untuk memperbarui bobot

w_{k} := w_{k} + Δ w_{k} (k \in {1, . . ., d})

$w_k := w_k + \Delta w_k \quad \quad (k \in \{1, ..., d\})$

Sehingga dihitung sebagai $\hat{y}$

\hat{y} = sign (w^{T} x_{i}) = sign (w_{0} + w_{1} x_{i 1} + . . . + w_{d} x_{i d})

$\hat{y} = \operatorname{sign}(\mathbf{w}^T\mathbf{x}_i) = \operatorname{sign}(w_0 + w_1x_{i1} + ... + w_dx_{id})$

Keturunan Gradien

Dengan menggunakan gradient descent, kami mengoptimalkan (meminimalkan) fungsi biaya

J (w) = \sum_{i} \frac{1}{2} (y_{i} - \hat{y_{i}})^{2} y_{i}, \hat{y_{i}} \in R

$J(\mathbf{w}) = \sum_{i} \frac{1}{2}(y_i - \hat{y_i})^2 \quad \quad y_i,\hat{y_i} \in \mathbb{R}$

di mana kita memiliki angka "nyata", jadi saya melihat ini pada dasarnya analog dengan regresi linier dengan perbedaan bahwa output klasifikasi kami di-threshold.

Di sini, kami mengambil langkah ke arah negatif dari gradien ketika kami memperbarui bobot

Δ w_{k} = - η \frac{\partial J}{\partial w_{k}} = - η \sum_{i} (y_{i} - \hat{y_{i}}) (- x_{i k}) = η \sum_{i} (y_{i} - \hat{y_{i}}) x_{i k}

$\Delta w_k = - \eta \frac{\partial J}{\partial w_k} = - \eta \sum_i (y_i - \hat{y_i})(- x_{ik}) = \eta \sum_i (y_i - \hat{y_i})x_{ik}$

Tetapi di sini, kita memiliki alih-alih $\hat{y} = \mathbf{w}^T\mathbf{x}_i$ $\hat{y} = \operatorname{sign}(\mathbf{w}^T\mathbf{x}_i)$

w_{k} := w_{k} + Δ w_{k} (k \in {1, . . ., d})

$w_k := w_k + \Delta w_k \quad \quad (k \in \{1, ..., d\})$

Selain itu, kami menghitung jumlah kesalahan kuadrat untuk lulus penuh atas seluruh dataset pelatihan (dalam mode pembelajaran batch) berbeda dengan aturan perceptron klasik yang memperbarui bobot saat sampel pelatihan baru tiba (analog ke penurunan gradien stokastik - online belajar).

Fungsi aktivasi Sigmoid

Sekarang, inilah pertanyaan saya:

Dalam multilayer Perceptrons, perceptrons digunakan dengan fungsi aktivasi sigmoid. Sehingga dalam aturan pembaruan dihitung sebagai $\hat{y}$

\hat{y} = \frac{1}{1 + \exp (- w^{T} x_{i})}

$\hat{y} = \frac{1}{1+\exp(-\mathbf{w}^T\mathbf{x}_i)}$

Bagaimana perbedaan "sigmoid" Perceptron ini dari regresi logistik?

4

Luar biasa, pertanyaan ini dengan sendirinya memungkinkan saya untuk menyingkat pembelajaran mesin dan dasar-dasar saraf saya!

— varun

4

Dengan menggunakan gradient descent, kami mengoptimalkan (meminimalkan) fungsi biaya

$J (w) = \sum_{i} \frac{1}{2} (y_{i} - \hat{y_{i}})^{2} y_{i}, \hat{y_{i}} \in R$ $J(\mathbf{w}) = \sum_{i} \frac{1}{2}(y_i - \hat{y_i})^2 \quad \quad y_i,\hat{y_i} \in \mathbb{R}$

Jika Anda meminimalkan kesalahan kuadrat rata-rata, maka itu berbeda dari regresi logistik. Regresi logistik biasanya dikaitkan dengan cross entropy loss, berikut adalah halaman pengantar dari perpustakaan scikit-learn .

(Saya akan menganggap perceptrons multilayer adalah hal yang sama yang disebut jaringan saraf.)

Jika Anda menggunakan cross entropy loss (dengan regularisasi) untuk jaringan saraf single-layer, maka itu akan menjadi model yang sama (model log-linear) dengan regresi logistik. Jika Anda menggunakan jaringan multi-layer sebagai gantinya, itu dapat dianggap sebagai regresi logistik dengan fungsi basis nonlinear parametrik.

Namun, dalam multilayer perceptrons, fungsi aktivasi sigmoid digunakan untuk mengembalikan probabilitas, bukan sinyal on-off berbeda dengan regresi logistik dan perceptron satu-layer.

Output dari kedua regresi logistik dan jaringan saraf dengan fungsi aktivasi sigmoid dapat diartikan sebagai probabilitas. Karena cross entropy loss sebenarnya adalah kemungkinan log negatif yang ditentukan melalui distribusi Bernoulli.

— dontloo
sumber

2

Karena gradient descent memperbarui setiap parameter dengan cara yang mengurangi kesalahan output yang harus dilanjutkan fungsi semua parameter. Aktivasi berbasis ambang tidak dapat dibedakan itu sebabnya aktivasi sigmoid atau tanh digunakan.

Ini adalah NN single-layer

$\frac{dJ(w,b)}{d\omega_{kj}} =\frac{dJ(w,b)}{dz_k}\cdot \frac{dz_k}{d\omega_{kj}}$

$\frac{dJ(w,b)}{dz_k} = (a_k -y_k)(a_k(1-a_k))$

$\frac{dz_k}{d\omega_{kj}} = x_k$

$J(w,b) = \frac{1}{2} (y_k - a_k)^2$

$a_k = sigm(z_k) = sigm(W_{kj}*x_k + b_k)$

jika fungsi aktivasi adalah fungsi langkah dasar (threshold), turunan dari wrt akan non-terdiferensiasi. $J$ $z_k$

di sini ada tautan yang menjelaskannya secara umum.

Sunting: Mungkin, saya salah mengerti apa yang Anda maksud dengan perceptron. Jika saya tidak salah, perceptron dipahami ditimbang sejumlah input. Jika Anda mengubah pemahaman dengan fungsi logistik itu berubah menjadi regresi logistik. Multi-layer NN dengan fungsi aktivasi sigmoid (logistik) adalah cascaded layers yang terdiri dari regresi logistik.

— yasin.yazici
sumber

3

Ini tidak menjawab pertanyaan.

— Neil G

Terima kasih telah menulis komentar yang bagus ini, tetapi ini bukan yang saya minta. Pertanyaan saya bukanlah "mengapa gradient descent" tetapi "apa yang membuat perceptron dengan fungsi aktivasi sigmoid berbeda dari regresi logistik"

y = W^{T} X

$y = W^T X$

1

y = w_{j}^{T} x_{j i}

$y = w_j^Tx_{ji}$

η (y - s i g n (w^{T} x_{i})) x

$\eta (y - sign(w^Tx_i))x$

η (y - w^{T} x_{i}) x_{i}

$\eta (y - w^Tx_i)x_i$

2

Secara intuitif, saya memikirkan perceptron multilayer sebagai komputasi transformasi nonlinier pada fitur input saya, dan kemudian memasukkan variabel-variabel yang ditransformasikan ke dalam regresi logistik.

$\beta_i X$ $i$ $\frac{\beta_i X}{\sum_j \beta_j X}$

Saya tidak tahu tentang Anda, tetapi dalam kursus pemodelan dan penelitian saya, saya mencoba semua jenis transformasi yang masuk akal dan bodoh dari fitur input untuk meningkatkan signifikansi dan prediksi model keseluruhan. Mengkuadratkan hal-hal, mengambil kayu gelondongan, menggabungkan dua menjadi satu tingkat, dll. Saya tidak malu, tetapi saya memiliki kesabaran yang terbatas.

$X$ $\beta_i$

— Dan Van Boxel
sumber