Klarifikasi tentang Peraturan Perceptron vs. Keturunan Gradien vs. Penerapan Keturunan Gradien Stokastik

Saya bereksperimen sedikit dengan implementasi Perceptron yang berbeda dan ingin memastikan apakah saya memahami "iterasi" dengan benar.

Aturan perceptron asli Rosenblatt

Sejauh yang saya mengerti, dalam algoritma perceptron klasik Rosenblatt, bobot secara bersamaan diperbarui setelah setiap contoh pelatihan melalui

$\Delta{w}^{(t+1)} = \Delta{w}^{(t)} + \eta(target - actual)x_i$

di mana adalah aturan belajar di sini. Dan target dan aktual keduanya di-threshold (-1 atau 1). Saya menerapkannya sebagai 1 iterasi = 1 melewati sampel pelatihan, tetapi vektor bobot diperbarui setelah setiap sampel pelatihan. $eta$

Dan saya menghitung nilai "aktual" sebagai

$sign ({\pmb{w}^T\pmb{x}}) = sign( w_0 + w_1 x_1 + ... + w_d x_d)$

Penurunan gradien stokastik

$\Delta{w}^{(t+1)} = \Delta{w}^{(t)} + \eta(target - actual)x_i$

Sama seperti aturan perceptron, namun, targetdan actualbukan nilai ambang melainkan nilai nyata. Juga, saya menghitung "iterasi" sebagai jalur sampel pelatihan.

Baik, SGD dan aturan perceptron klasik bertemu dalam kasus yang terpisah secara linear ini, namun, saya mengalami masalah dengan implementasi gradient descent.

Keturunan Gradien

Di sini, saya membahas sampel pelatihan dan meringkas perubahan berat untuk 1 melewati sampel pelatihan dan memperbarui bobot setelahnya, misalnya,

untuk setiap sampel pelatihan:

$\Delta{w_{new}} \mathrel{{+}{=}} \Delta{w}^{(t)} + \eta(target - actual)x_i$

...

setelah melewati 1 set pelatihan:

$\Delta{w} \mathrel{{+}{=}} \Delta{w_{new}}$

Saya bertanya-tanya, apakah asumsi ini benar atau apakah saya kehilangan sesuatu. Saya mencoba berbagai tingkat pembelajaran (hingga sangat kecil) tetapi tidak pernah bisa menunjukkan tingkat konvergensi. Jadi, saya bertanya-tanya apakah saya salah paham sth. sini.

Terima kasih, Sebastian

optimization gradient-descent perceptron

Anda memiliki beberapa kesalahan dalam pembaruan Anda. Saya pikir secara umum Anda membingungkan nilai bobot saat ini dengan perbedaan antara bobot saat ini dan bobot sebelumnya. Anda memiliki simbol tersebar di mana seharusnya tidak ada, dan + = di mana Anda seharusnya =. $\Delta$

Perceptron:

$\pmb{w}^{(t+1)} = \pmb{w}^{(t)} + \eta_t (y^{(i)} - \hat{y}^{(i)}) \pmb{x}^{(i)}$ ,

di mana adalah prediksi model pada contoh pelatihan. $\hat{y}^{(i)} = \text{sign} ({\pmb{w}^\top\pmb{x}^{(i)}})$ $i^{th}$

Ini dapat dilihat sebagai metode keturunan subgradien stokastik pada fungsi "perceptron loss" berikut *:

Kerugian perceptron:

$L_{\pmb{w}}(y^{(i)}) = \max(0, -y^{(i)} \pmb{w}^\top\pmb{x}^{(i)})$ .

$\partial L_{\pmb{w}}(y^{(i)}) = \begin{array}{rl} \{ 0 \}, & \text{ if } y^{(i)} \pmb{w}^\top\pmb{x}^{(i)} > 0 \\ \{ -y^{(i)} \pmb{x}^{(i)} \}, & \text{ if } y^{(i)} \pmb{w}^\top\pmb{x}^{(i)} < 0 \\ [-1, 0] \times y^{(i)} \pmb{x}^{(i)}, & \text{ if } \pmb{w}^\top\pmb{x}^{(i)} = 0 \\ \end{array}$ .

Karena perceptron sudah merupakan bentuk SGD, saya tidak yakin mengapa pembaruan SGD harus berbeda dari pembaruan perceptron. Cara Anda menulis langkah SGD, dengan nilai-nilai yang tidak dibatasi, Anda menderita kerugian jika Anda memperkirakan jawaban terlalu benar. Itu buruk.

Langkah gradien batch Anda salah karena Anda menggunakan "+ =" saat Anda seharusnya menggunakan "=". Bobot saat ini ditambahkan untuk setiap instance pelatihan . Dengan kata lain, cara Anda menulisnya,

$\pmb{w}^{(t+1)} = \pmb{w}^{(t)} + \sum_{i=1}^n \{\pmb{w}^{(t)} - \eta_t \partial L_{\pmb{w}^{(t)}}(y^{(i)}) \}$ .

Apa yang seharusnya:

$\pmb{w}^{(t+1)} = \pmb{w}^{(t)} - \eta_t \sum_{i=1}^n {\partial L_{\pmb{w}^{(t)}}(y^{(i)}) }$ .

Selain itu, agar algoritma dapat menyatu pada setiap dan setiap kumpulan data, Anda harus mengurangi tingkat pembelajaran Anda pada suatu jadwal, seperti . $\eta_t = \frac{\eta_0}{\sqrt{t}}$

* Algoritma perceptron tidak persis sama dengan SSGD pada kerugian perceptron. Biasanya dalam SSGD, dalam kasus seri ( ), , jadi , jadi Anda akan diizinkan untuk tidak mengambil langkah. Dengan demikian, kerugian perceptron dapat diminimalkan pada , yang tidak berguna. Tetapi dalam algoritma perceptron , Anda diminta untuk memutuskan ikatan, dan menggunakan arah subgradien jika Anda memilih jawaban yang salah. $\pmb{w}^\top\pmb{x}^{(i)} = 0$ $\partial L= [-1, 0] \times y^{(i)} \pmb{x}^{(i)}$ $\pmb{0} \in \partial L$ $\pmb{w} = \pmb{0}$ $-y^{(i)} \pmb{x}^{(i)} \in \partial L$

Jadi mereka tidak persis sama, tetapi jika Anda bekerja dari asumsi bahwa algoritma perceptron adalah SGD untuk beberapa fungsi kerugian, dan merekayasa balik fungsi kerugian, perceptron loss adalah apa yang Anda dapatkan.

— Sam Thomson
sumber

Terima kasih, Sam, dan saya minta maaf atas pertanyaan saya yang berantakan. Saya tidak tahu dari mana asal delta, tetapi "+ =" adalah hal yang salah. Saya benar-benar mengabaikan bagian itu. Terima kasih atas jawabannya!