Lapisan softmax dalam jaringan saraf

43

Saya mencoba menambahkan lapisan softmax ke jaringan saraf yang dilatih dengan backpropagation, jadi saya mencoba menghitung gradiennya.

Output softmax adalah mana adalah nomor neuron output. $h_j = \frac{e^{z_j}}{\sum{e^{z_i}}}$ $j$

Jika saya mendapatkannya maka saya mendapatkannya

$\frac{\partial{h_j}}{\partial{z_j}}=h_j(1-h_j)$

Mirip dengan regresi logistik. Namun ini salah karena pemeriksaan gradien numerik saya gagal.

Apa yang saya lakukan salah? Saya punya pemikiran bahwa saya perlu menghitung turunan silang juga (yaitu ) tapi saya tidak yakin bagaimana melakukan ini dan menjaga dimensi gradien sama sehingga akan cocok untuk proses propagasi kembali. $\frac{\partial{h_j}}{\partial{z_k}}$

neural-networks

— Ran
sumber

3

Anda harus meningkatkan judul pertanyaan Anda karena itu tidak berbicara tentang menambahkan lapisan softmax umum ke NN, karena pertanyaan Anda spesifik tentang bagaimana cek gradien gagal. Saya sangat menyarankan untuk mengubah judul menjadi "Mengapa backpropagation berhenti bekerja dengan benar ketika saya menambahkan lapisan softmax ke Jaringan Saraf Saya".

— Charlie Parker

43

Saya merasa agak buruk tentang memberikan jawaban saya sendiri untuk ini karena cukup baik ditangkap oleh amuba dan juampa, kecuali mungkin intuisi terakhir tentang bagaimana Jacobian dapat direduksi kembali menjadi vektor.

Anda dengan benar mendapatkan gradien diagonal dari matriks Jacobian, yang artinya

${\partial h_i \over \partial z_j}= h_i(1-h_j)\;\;\;\;\;\;: i = j$

dan seperti yang dinyatakan amuba, Anda juga harus menurunkan entri diagonal dari Jacobian, yang menghasilkan

${\partial h_i \over \partial z_j}= -h_ih_j\;\;\;\;\;\;: i \ne j$

Kedua konsep definisi ini dapat dengan mudah digabungkan menggunakan konstruksi yang disebut Kronecker Delta , sehingga definisi gradien menjadi

${\partial h_i \over \partial z_j}= h_i(\delta_{ij}-h_j)$

Jadi Jacobian adalah matriks persegi $\left[J \right]_{ij}=h_i(\delta_{ij}-h_j)$

Semua informasi hingga saat ini sudah dicakup oleh amuba dan juampa. Masalahnya tentu saja, bahwa kita perlu mendapatkan kesalahan input dari kesalahan output yang sudah dihitung. Karena gradien kesalahan output tergantung pada semua input, maka gradien input adalah $\nabla h_i$ $x_i$

$[\nabla x]_k = \sum\limits_{i=1} \nabla h_{i,k}$

Mengingat matriks Jacobian didefinisikan di atas, ini diimplementasikan sepele sebagai produk dari matriks dan vektor kesalahan output:

$\vec{\sigma_l} = J\vec{\sigma_{l+1}}$

Jika lapisan softmax adalah lapisan keluaran Anda, maka menggabungkannya dengan model biaya lintas-entropi menyederhanakan perhitungan menjadi hanya

$\vec{\sigma_l} = \vec{h}-\vec{t}$

di mana adalah vektor label, dan adalah output dari fungsi softmax. Tidak hanya bentuk yang disederhanakan nyaman, tetapi juga sangat berguna dari sudut pandang stabilitas numerik. $\vec{t}$ $\vec{h}$

— Mranz
sumber

dengan

, adalah

\vec{σ_{l}} = (σ_{l, 1}, σ_{l, 2}, . . ., σ_{l, k})

$\vec{\sigma_l} = (\sigma_{l,1}, \sigma_{l,2}, ..., \sigma_{l,k})$

? (Hanya mencoba memahami apa 'gradien' dalam kasus ini)

σ_{l, j} = \frac{\partial C}{\partial z_{j}}

$\sigma_{l,j} = \frac{\partial C}{\partial z_j}$

— Alexandre Holden Daly

Ya itu benar.

— Mranz

Bisakah seseorang tolong jelaskan apa istilah delta huruf kecil di Kronecker Delta dan bagaimana cara menghitungnya?

— danijar

Saya terjebak pada masalah ini untuk sementara waktu. Untuk memperjelas. Anda memiliki vektor (pre softmax) dan kemudian Anda menghitung softmax. Karena nilai-nilai softmax tergantung pada semua nilai input, matriks jacobian yang sebenarnya diperlukan. Kemudian Anda mengambil matriks jacobian dan jumlah mengurangi baris untuk mendapatkan vektor baris tunggal, yang Anda gunakan untuk gradient descent seperti biasa. Apakah semua ini 100% benar?

— harveyslash

14

Derivatif salah. Harus,

\frac{\partial h_{j}}{\partial z_{k}} = h_{j} δ_{k j} - h_{j} h_{k}

$\frac{\partial h_{j}}{\partial z_{k}} = h_{j}\delta_{kj}-h_{j}h_{k}$

$C$

- \sum_{n} \sum_{k = 1}^{C} t_{k}^{n} dalam y_{k} (x^{n})

$-\sum_{n}\sum_{k=1}^{C}t_{k}^{n}\ln y_{k}(\boldsymbol{x}^{n})$

$t_{k}^{n}$ $t_{k}^{n}$

Perhatikan, bahwa t adalah konstan. Oleh karena itu meminimalkan fungsional ini setara dengan meminimalkan,

- \sum_{n} \sum_{k = 1}^{C} t_{k}^{n} dalam y_{k} (x^{n}) + \sum_{n} \sum_{k = 1}^{C} t_{k}^{n} dalam t_{k}^{n} = - \sum_{n} \sum_{k = 1}^{C} t_{k}^{n} dalam \frac{y_{k} (x^{n})}{t_{k}^{n}}

$-\sum_{n}\sum_{k=1}^{C}t_{k}^{n}\ln y_{k}(\boldsymbol{x}^{n}) + \sum_{n}\sum_{k=1}^{C}t_{k}^{n}\ln t_{k}^{n} = -\sum_{n}\sum_{k=1}^{C}t_{k}^{n}\ln \frac{y_{k}(\boldsymbol{x}^{n})}{t_{k}^{n}}$

yang memiliki keuntungan bahwa Jacobian mengambil bentuk yang sangat nyaman, yaitu,

\frac{\partial E}{\partial z_{j}} = h_{j} - t_{j}

$\frac{\partial E}{\partial z_{j}} = h_{j}-t_{j}$

Saya akan merekomendasikan Anda untuk mendapatkan salinan Neural Networks untuk Pengenalan Pola . IMHO masih buku terbaik di jaringan saraf.

— jpmuc
sumber

14

$\partial_j h_j = \frac{\partial h_j}{\partial z_j}=h_j(1-h_j)$ $\partial_k h_j=-h_jh_k$ $j \neq k$

$j$ $j$

C = - \sum_{j} t_{j} catatan h_{j},

$C=-\sum_j t_j \log h_j,$

t_{j}

$t_j$

\frac{\partial C}{\partial z_{j}}

$\frac{\partial C}{\partial z_j}$

— amuba kata Reinstate Monica
sumber

1

Saya akan mencoba untuk menggambarkan masalah saya dengan lebih baik, sesuai dengan contoh untuk tutorial ini ufldl.stanford.edu/wiki/index.php/Backpropagation_Algorithm , saya perlu elemen-gandakan gandakan bobot dan delta dengan turunannya (langkah nomor 3). Jadi jika saya memiliki matriks Jacobian penuh, dimensi tidak cocok. Terima kasih.

— Berlari

Apakah Anda tahu bagaimana melanjutkan jika itu bukan softmax, tetapi lapisan tersembunyi yang biasa? Bayangkan bahwa setiap unit pada lapisan ini mendapat input dari semua unit dari lapisan sebelumnya (yaitu lapisan ini "terhubung sepenuhnya"), yang biasanya merupakan kasus. Kemudian Anda juga perlu mempropagandakan kesalahan kembali melalui lapisan ini, dan turunannya juga membentuk matriks Jacobian. Jika Anda bingung tentang cara melakukannya, maka kebingungan Anda tidak terkait dengan softmax.

— Amoeba berkata Reinstate Monica

1

Saya berhasil mengimplementasikannya untuk lapisan linear dan sigmoid karena turunannya adalah vektor jadi saya tidak punya masalah dengan dimensi.

— Berlari

j

$j$

i

$i$