Vektorisasi Rugi Entropi Silang

9

Saya berurusan dengan masalah yang berkaitan dengan menemukan gradien fungsi Cross entropy loss wrt parameter $\theta$ dimana:

$CE(\theta) = -\sum\nolimits_{i}{y_i*log({\hat{y}_{i}})}$

Dimana, $\hat{y}_{i} = softmax(\theta_i)$ dan $\theta_i$ adalah input vektor.

Juga, $y$ adalah satu vektor panas dari kelas yang benar dan $\hat{y}$ adalah prediksi untuk setiap kelas menggunakan fungsi softmax.

Oleh karena itu, misalnya mari kita miliki $y_i = \begin{pmatrix}0\\0\\0\\1\\0\end{pmatrix}$ dan $\hat{y}_{i} = \begin{pmatrix}0.10\\0.20\\0.10\\0.40\\0.20\end{pmatrix}$

Untuk menemukan turunan parsial $\frac{\partial{CE(\theta)}}{\partial{\theta{ik}}} = -{y_{ik} - \hat{y}_{ik}}$

Mengambil dari sana untuk masing-masing $i$ gradien parsial individu akan $\frac{\partial{CE(\theta)}}{\partial{\theta{i}}} = \begin{pmatrix}y_{i1} - \hat{y}_{i1}\\y_{i2} - \hat{y}_{i2}\\y_{i3} - \hat{y}_{i3}\\y_{i4} - \hat{y}_{i4}\\y_{i5} - \hat{y}_{i5}\end{pmatrix}$

Tapi ini tidak benar karena gradien sebenarnya harus 0 untuk semua baris lain kecuali untuk baris ke-4 karena kami telah menggunakan properti dari satu vektor panas. Jadi gradien aktual seharusnya $\frac{\partial{CE(\theta)}}{\partial{\theta{i}}} = \begin{pmatrix}0\\0\\0\\y_{i4} - \hat{y}_{i4}\\0\end{pmatrix}$

Dan karenanya gradien untuk semua $i$ seharusnya $\frac{\partial{CE(\theta)}}{\partial{\theta}} = \left( \begin{array}{ccc} 0 & 0 & 0 & y_{i4} - \hat{y}_{i4} & 0 \\ 0 & 0 & y_{i3} - \hat{y}_{i3} & 0 & 0 \\ ... \\ 0 & y_{i2} - \hat{y}_{i2} & 0 & 0 & 0 \end{array} \right)$

Tapi ini tidak sama dengan $\hat{y} - y$ . Jadi kita tidak boleh menyebut gradien fungsi lintas entropi perbedaan vektor antara diprediksi dan asli.

Bisakah seseorang memperjelas hal ini?

UPDATE: Memperbaiki derivasi saya

$\theta = \left( \begin{array}{c} \theta_{1} \\ \theta_{2} \\ \theta_{3} \\ \theta_{4} \\ \theta_{5} \\ \end{array} \right)$

$CE(\theta) = -\sum\nolimits_{i}{y_i*log({\hat{y}_{i}})}$

Dimana, $\hat{y}_{i} = softmax(\theta_i)$ dan $\theta_i$ adalah input vektor.

Juga, $y$ adalah satu vektor panas dari kelas yang benar dan $\hat{y}$ adalah prediksi untuk setiap kelas menggunakan fungsi softmax.

$\frac{\partial{CE(\theta)}}{\partial{\theta{i}}} = - (log(\hat{y}_{k}))$

PEMBARUAN: Menghapus indeks dari $y$ dan $\hat{y}$ Oleh karena itu, misalnya mari kita miliki $y = \begin{pmatrix}0\\0\\0\\1\\0\end{pmatrix}$ dan $\hat{y} = \begin{pmatrix}0.10\\0.20\\0.10\\0.40\\0.20\end{pmatrix}$

UPDATE: Memperbaiki Saya mengambil turunan wrt $\theta_{ik}$ seharusnya hanya wrt $\theta_{i}$ . Untuk menemukan turunan parsial $\frac{\partial{CE(\theta)}}{\partial{\theta{i}}} = -{y_{k} - \hat{y}_{k}}$

Mengambil dari sana untuk masing-masing $i$ gradien parsial individu akan $\frac{\partial{CE(\theta)}}{\partial{\theta}} = \begin{pmatrix}y_{1} - \hat{y}_{1}\\y_{2} - \hat{y}_{2}\\y_{3} - \hat{y}_{3}\\y_{4} - \hat{y}_{4}\\y_{5} - \hat{y}_{5}\end{pmatrix}$

Di atas terjadi karena $CE(\theta) = -(y_k*log({\hat{y}_{k}}))$ Dan, $\hat{y}_{k} = log(softmax(\theta_k)) = \theta_k - log(\sum\nolimits_{j}{exp(\theta_j)})$ Mengambil sebagian turunan dari $CE(\theta)$ wrt $\theta_i$ kita mendapatkan:

$\frac{\partial{CE(\theta)}}{\partial{\theta{i}}} = - (\frac{\partial{\theta_k}}{\partial{\theta{i}}} - softmax(\theta_i))$

LANGKAH UTAMA: Fakta itu $\frac{\partial{\theta_k}}{\partial{\theta{i}}} = 0, i \neq k$ dan $\frac{\partial{\theta_k}}{\partial{\theta{i}}} = 1, i = k$ membuat vektor $\frac{\partial{CE(\theta)}}{\partial{\theta}} = \hat{y} - y$ yang melengkapi buktinya.

machine-learning neural-networks

— Shubhanshu Mishra
sumber

2

Tidak, gradien tidak boleh nol untuk komponen lainnya. Jika prediksi Anda benar $\hat y_{ij}$ untuk beberapa $i,j$ dan pengamatan Anda $y_{ij}=0$ , maka Anda terlalu banyak memperkirakan $\hat y_{ij}$ .

— Neil G
sumber

Tapi

{\hat{y}}_{i j}

$\hat{y}_{ij}$ akan selalu menjadi nilai softmax dan

y_{i j}

$y_{ij}$ pengamatan yang sebenarnya. Dan karena kita menggunakan fakta

y_{i}

$y_i$ menjadi satu vektor panas, karenanya, turunan parsial

\frac{\partial C E (θ)}{\partial θ i j} = 0, \forall j \neq k

$\frac{\partial{CE(\theta)}}{\partial{\theta{ij}}} = 0, \forall j \neq k$ , diberikan

y_{i k} = 1

$y_{ik} = 1$ Apakah saya membuat kesalahan dalam diferensiasi?

— Shubhanshu Mishra

1

Terima kasih atas masukan Anda @ neil-g, saya dapat mengoreksi derivasi gradasi saya.

— Shubhanshu Mishra

15

Berikut ini adalah konten yang sama dengan hasil edit, tetapi dalam (untuk saya) format langkah-demi-langkah yang sedikit lebih jelas:

Kami berusaha membuktikan bahwa:

$\frac{\partial{CE}}{\partial{\theta}} = \hat{y} - y$

diberikan

$CE(\theta) = -\sum\nolimits_{i}{y_i*log({\hat{y}_{i}})}$

dan

$\hat{y}_{i} = \frac{exp(\theta_i)}{\sum\nolimits_{j}{exp(\theta_j)}}$

Kami tahu itu $y_{j} = 0$ untuk $j \neq k$ dan $y_k = 1$ jadi:

$CE(\theta) = -\ log({\hat{y}_{k}})$

$= - \ log(\frac{exp(\theta_k)}{\sum\nolimits_{j}{exp(\theta_j)}})$

$= - \ \theta_k + log(\sum\nolimits_{j}{exp(\theta_j)})$

$\frac{\partial{CE}}{\partial{\theta}} = - \frac{\partial{\theta_k}}{\partial{\theta}} + \frac{\partial}{\partial{\theta}} log(\sum\nolimits_{j}{exp(\theta_j))}$

Gunakan fakta itu $\frac{\partial{\theta_k}}{\partial{\theta_k}} = 1$ dan $\frac{\partial{\theta_k}}{\partial{\theta_q}} = 0$ untuk $q \neq k$ , untuk menunjukkan itu.

$\frac{\partial{\theta_k}}{\partial{\theta}} = y$

Untuk bagian kedua kami menulis turunan untuk setiap elemen individu $\theta$ dan gunakan aturan rantai untuk mendapatkan:

$\frac{\partial}{\partial{\theta_i}} log(\sum\nolimits_{j}{exp(\theta_j))} = \frac{exp(\theta_i)}{\sum\nolimits_{j}{exp(\theta_j)}} = \hat{y}_{i}$

Karenanya,

$\frac{\partial{CE}}{\partial{\theta}} = \frac{\partial}{\partial{\theta}} log(\sum\nolimits_{j}{exp(\theta_j))} - \frac{\partial{\theta_k}}{\partial{\theta}} = \hat{y}$ - y

— Maarten
sumber