Turunkan gradien dari jaringan saraf tunggal lapisan wrt inputnya, apa operator dalam aturan rantai?

9

Masalahnya adalah:

Turunkan gradien sehubungan dengan lapisan input untuk jaringan saraf lapisan tersembunyi tunggal menggunakan sigmoid untuk input -> hidden, softmax untuk hidden -> output, dengan kehilangan entropi silang.

Saya dapat melewati sebagian besar derivasi menggunakan aturan rantai tetapi saya tidak yakin tentang bagaimana sebenarnya "rantai" mereka bersama-sama.

Tentukan beberapa notasi

$r = xW_1+b_1$

, adalah fungsi sigmoid $h = \sigma\left( r \right)$ $\sigma$

, $\theta = hW_2+b_2$

,adalah fungsi Softmax $\hat{y} = S \left( \theta \right)$ $S$

, adalah label nyata satu-panas vektor $J\left(\hat{y}\right) = \sum_i y \log\hat{y}_i$ $y$

Kemudian dengan aturan rantai,

\frac{\partial J}{\partial x} = \frac{\partial J}{\partial θ} \cdot \frac{\partial θ}{\partial h} \cdot \frac{\partial h}{\partial r} \cdot \frac{\partial r}{\partial x}

$\frac{\partial J}{\partial \boldsymbol{x}} = \frac{\partial J}{\partial \boldsymbol{\theta}} \cdot \frac{\partial \boldsymbol{\theta}}{\partial \boldsymbol{h}} \cdot \frac{\partial \boldsymbol{h}}{\partial \boldsymbol{r}} \cdot \frac{\partial \boldsymbol{r}}{\partial \boldsymbol{x}}$

Gradien individu adalah:

\frac{\partial J}{\partial θ} = (\hat{y} - y)

$\frac{\partial J}{\partial \boldsymbol{\theta}} = \left( \hat{\boldsymbol{y}} - \boldsymbol{y} \right)$

\frac{\partial θ}{\partial h} = \frac{\partial}{\partial h} [h W_{2} + b_{2}] = W_{2}^{T}

$\frac{\partial \boldsymbol{\theta}}{\partial \boldsymbol{h}} = \frac{\partial}{\partial \boldsymbol{h}} \left[ \boldsymbol{h}W_2 + \boldsymbol{b_2}\right] = W_2^T$

\frac{\partial h}{\partial r} = h \cdot (1 - h)

$\frac{\partial \boldsymbol{h}}{\partial \boldsymbol{r}} = h \cdot \left(1-h\right)$

\frac{\partial r}{\partial x} = \frac{\partial}{\partial x} [x W_{1} + b_{1}] = W_{1}^{T}

$\frac{\partial \boldsymbol{r}}{\partial \boldsymbol{x}} = \frac{\partial}{\partial \boldsymbol{x}} \left[ \boldsymbol{x}W_1 + \boldsymbol{b_1}\right] = W_1^T$

Sekarang kita harus merangkai definisi bersama. Dalam variabel tunggal ini mudah, kami hanya mengalikan semuanya. Dalam vektor, saya tidak yakin apakah akan menggunakan perkalian elemen-bijaksana atau perkalian matriks.

\frac{\partial J}{\partial x} = (\hat{y} - y) * W_{2}^{T} \cdot [h \cdot (1 - h)] * W_{1}^{T}

$\frac{\partial J}{\partial \boldsymbol{x}} = \left( \hat{\boldsymbol{y}} - \boldsymbol{y} \right) * W_2^T \cdot \left[\boldsymbol{h} \cdot \left(1-\boldsymbol{h}\right)\right] * W_1^T$

$\cdot$ $*$ $1 \cdot D_x$ $\frac{\partial J}{\partial \boldsymbol{x}}$

$W_2^T$ $h$

Terima kasih!

neural-networks gradient

— amatsukawa
sumber

Saya menyadari menemukan gradien wrt ke input tidak sering dilakukan. Saya percaya ini adalah petunjuk untuk menghitung embeddings kata, di mana Anda memiliki pilihan untuk mengoptimalkan vektor kata "input".

— amatsukawa

Bagaimana kau menurunkannya dJ / dTheta

— raaj

4

Saya percaya bahwa kunci untuk menjawab pertanyaan ini adalah untuk menunjukkan bahwa penggandaan elemen-bijaksana sebenarnya singkatan dan karena itu ketika Anda mendapatkan persamaan Anda tidak pernah benar - benar menggunakannya.

Operasi yang sebenarnya bukan perkalian elemen-bijaksana tetapi sebagai gantinya, perkalian matriks standar dari gradien dengan Jacobian , selalu .

Dalam kasus nonlinieritas, Jacobian dari output vektor nonlinieritas berkenaan dengan input vektor dari nonlinieritas merupakan matriks diagonal. Oleh karena itu benar bahwa gradien dikalikan dengan matriks ini setara dengan gradien dari output nonlinier sehubungan dengan elemen kerugian-bijaksana dikalikan dengan vektor yang mengandung semua turunan parsial dari nonlinier sehubungan dengan input nonlinier, sehubungan dengan input nonlinier, tetapi ini mengikuti dari Jacobian yang diagonal. Anda harus melewati langkah Jacobian untuk mendapatkan penggandaan elemen-bijaksana, yang mungkin menjelaskan kebingungan Anda.

$s$ $L$ $x \in \mathbb{R}^{n \times 1}$ $s(x) \in \mathbb{R}^{n \times 1}$

\nabla_{x} L = {(\frac{\partial s (x)}{\partial x})}^{T} \nabla_{s (x)} L

$\nabla_{x}L=\left({\dfrac{\partial s(x)}{\partial x}}\right)^T\nabla_{s(x)}L$

$\dfrac{\partial s(x)}{\partial x}$ $s$

[\begin{matrix} \frac{\partial s (x_{1})}{\partial x_{1}} & \dots & \frac{\partial s (x_{1})}{\partial x_{n}} \\ ⋮ & ⋱ & ⋮ \\ \frac{\partial s (x_{n})}{x_{1}} & \dots & \frac{\partial s (x_{n})}{\partial x_{n}} \end{matrix}]

$\begin{bmatrix} \dfrac{\partial{s(x_{1})}}{\partial{x_1}} & \dots & \dfrac{\partial{s(x_{1})}}{\partial{x_{n}}} \\ \vdots & \ddots & \vdots \\ \dfrac{\partial{s(x_{n})}}{x_{1}} & \dots & \dfrac{\partial{s(x_{n})}}{\partial{x_{n}}} \end{bmatrix}$

D i a g (\frac{\partial s (x)}{\partial x})

$Diag\left(\dfrac{\partial s(x)}{\partial x}\right)$

Dan kemudian gunakan operator elemen-bijaksana.

\nabla_{x} L = {(\frac{\partial s (x)}{\partial x})}^{T} \nabla_{s (x)} L = D i a g (\frac{\partial s (x)}{\partial x}) \circ \nabla_{s (x)} L

$\nabla_{x}L =\left({\dfrac{\partial s(x)}{\partial x}}\right)^T\nabla_{s(x)}L =Diag\left(\dfrac{\partial s(x)}{\partial x}\right) \circ \nabla_{s(x)}L$

— pengguna0
sumber

0

$\delta_2 =(\hat{y}-y)W_2^T$ $a' = h \circ (1 -h)$ $\delta_2 \circ a'$

Lihat slide kuliah cs224d halaman 30, ini mungkin juga membantu.

— Logan
sumber