Daftar fungsi biaya yang digunakan dalam jaringan saraf, di samping aplikasi

133

Apa fungsi biaya umum yang digunakan dalam mengevaluasi kinerja jaringan saraf?

Detail

(jangan ragu untuk melewatkan sisa pertanyaan ini, maksud saya di sini adalah hanya untuk memberikan klarifikasi tentang notasi yang mungkin digunakan jawaban untuk membantu mereka lebih dimengerti oleh pembaca umum)

Saya pikir akan bermanfaat untuk memiliki daftar fungsi biaya umum, di samping beberapa cara yang telah mereka gunakan dalam praktik. Jadi, jika orang lain tertarik dengan ini, saya pikir komunitas wiki mungkin adalah pendekatan terbaik, atau kita bisa menghapusnya jika itu di luar topik.

Notasi

Jadi untuk memulai, saya ingin mendefinisikan notasi yang kita semua gunakan saat menjelaskan ini, jadi jawabannya cocok satu sama lain.

Notasi ini dari buku Neilsen .

Jaringan Neural Feedforward adalah banyak lapisan neuron yang terhubung bersama. Kemudian dibutuhkan input, input itu "menetes" melalui jaringan dan kemudian jaringan saraf mengembalikan vektor output.

Lebih formal lagi, sebut aktivasi (alias output) dari neuron di lapisan , di mana adalah elemen dalam vektor input. $a^i_j$ $j^{th}$ $i^{th}$ $a^1_j$ $j^{th}$

Kemudian kita dapat menghubungkan input layer berikutnya dengan sebelumnya melalui relasi berikut:

$a^i_j = \sigma(\sum\limits_k (w^i_{jk} \cdot a^{i-1}_k) + b^i_j)$

dimana

$\sigma$ adalah fungsi aktivasi,

$w^i_{jk}$ adalah bobot dari neuron di lapisan ke neuron di lapisan , $k^{th}$ $(i-1)^{th}$ $j^{th}$ $i^{th}$

$b^i_j$ adalah bias dari neuron di lapisan , dan $j^{th}$ $i^{th}$

$a^i_j$ mewakili nilai aktivasi neuron di lapisan - . $j^{th}$ $i^th$

Terkadang kita menulis untuk mewakili , dengan kata lain, nilai aktivasi neuron sebelum menerapkan fungsi aktivasi . $z^i_j$ $\sum\limits_k (w^i_{jk} \cdot a^{i-1}_k) + b^i_j$

masukkan deskripsi gambar di sini

Untuk notasi yang lebih ringkas kita bisa menulis

$a^i = \sigma(w^i \times a^{i-1} + b^i)$

Untuk menggunakan rumus ini untuk menghitung output dari jaringan feedforward untuk beberapa input , atur , lalu hitung , , ..., , di mana m adalah jumlah lapisan. $I \in \mathbb{R}^n$ $a^1 = I$ $a^2$ $a^3$ $a^m$

pengantar

Fungsi biaya adalah ukuran "seberapa baik" jaringan saraf lakukan sehubungan dengan itu diberikan sampel pelatihan dan output yang diharapkan. Ini juga mungkin tergantung pada variabel seperti bobot dan bias.

Fungsi biaya adalah nilai tunggal, bukan vektor, karena ini menilai seberapa baik jaringan saraf lakukan secara keseluruhan.

Secara khusus, fungsi biaya dalam bentuk

C (W, B, S^{r}, E^{r})

$C(W, B, S^r, E^r)$

di mana adalah bobot jaringan saraf kita, adalah bias jaringan saraf kita, adalah input dari sampel pelatihan tunggal, dan adalah output yang diinginkan dari sampel pelatihan itu. Catatan fungsi ini juga bisa berpotensi menjadi tergantung pada dan untuk setiap neuron pada lapisan , karena nilai-nilai tersebut tergantung pada , , dan . $W$ $B$ $S^r$ $E^r$ $y^i_j$ $z^i_j$ $j$ $i$ $W$ $B$ $S^r$

Dalam backpropagation, fungsi biaya digunakan untuk menghitung kesalahan dari layer output kami, , melalui $\delta^L$

δ_{j}^{L} = \frac{\partial C}{\partial a_{j}^{L}} σ^{'} (z_{j}^{i})

$\delta^L_j = \frac{\partial C}{\partial a^L_j} \sigma^{ \prime}(z^i_j)$ .

Yang juga dapat ditulis sebagai vektor via

δ^{L} = \nabla_{a} C ⊙ σ^{'} (z^{i})

$\delta^L = \nabla_a C \odot \sigma^{ \prime}(z^i)$ .

Kami akan memberikan gradien fungsi biaya dalam hal persamaan kedua, tetapi jika seseorang ingin membuktikan hasil ini sendiri, disarankan menggunakan persamaan pertama karena lebih mudah digunakan.

Persyaratan fungsi biaya

Untuk digunakan dalam backpropagation, fungsi biaya harus memenuhi dua properti:

1: Fungsi biaya harus dapat ditulis sebagai rata-rata $C$

C = \frac{1}{n} \sum_{x} C_{x}

$C=\frac{1}{n} \sum\limits_x C_x$

fungsi biaya untuk contoh pelatihan individual, . $C_x$ $x$

Hal ini memungkinkan kita untuk menghitung gradien (sehubungan dengan bobot dan bias) untuk contoh pelatihan tunggal, dan menjalankan Gradient Descent.

2: Fungsi biaya tidak harus bergantung pada nilai-nilai aktivasi dari jaringan saraf selain output nilai . $C$ $a^L$

Secara teknis fungsi biaya dapat bergantung pada atau . Kami hanya membuat batasan ini sehingga kami dapat melakukan backpropagte, karena persamaan untuk menemukan gradien dari lapisan terakhir adalah satu-satunya yang bergantung pada fungsi biaya (sisanya tergantung pada lapisan berikutnya). Jika fungsi biaya tergantung pada lapisan aktivasi lain selain yang satu output, backpropagation akan tidak valid karena gagasan "menetes ke belakang" tidak lagi berfungsi. $a^i_j$ $z^i_j$

Juga, fungsi aktivasi diperlukan untuk memiliki output untuk semua . Jadi fungsi biaya ini hanya perlu didefinisikan dalam rentang itu (misalnya, valid karena kami dijamin ). $0\leq a^L_j \leq 1$ $j$ $\sqrt{a^L_j}$ $a^L_j \geq 0$

machine-learning neural-networks

— Phylliida
sumber

Ini adalah situs tanya jawab, dan format posting ini tidak terlalu sesuai. Anda mungkin harus memasukkan sebagian besar konten ke dalam jawaban, dan meninggalkan pertanyaan saja (mis. Apa daftar fungsi biaya yang digunakan dalam NN?).

— Roger Fan

Oke, apakah itu lebih baik? Saya pikir definisi itu penting jika tidak, jawabannya menjadi kabur bagi mereka yang tidak akrab dengan terminologi yang digunakan penulis.

— Phylliida

Tetapi bagaimana jika jawaban yang berbeda menggunakan notasi atau terminologi yang berbeda?

— Roger Fan

Idenya adalah bahwa setiap orang menggunakan terminologi yang sama di sini, dan jika berbeda kita mengonversinya menjadi ini, sehingga jawaban "cocok" satu sama lain. Tapi saya kira saya bisa menghapus bagian itu jika Anda tidak berpikir itu membantu.

— Phylliida

Saya hanya berpikir detail pertanyaannya tidak benar-benar diperlukan atau relevan. Sepertinya agak berlebihan dan membatasi, tapi itu hanya aku.

— Roger Fan

Jawaban:

Inilah yang saya mengerti sejauh ini. Sebagian besar ini bekerja paling baik ketika diberi nilai antara 0 dan 1.

Biaya kuadratik

Juga dikenal sebagai mean squared error , kemungkinan maksimum , dan jumlah squared error , ini didefinisikan sebagai:

C_{M S T} (W, B, S^{r}, E^{r}) = 0.5 \sum_{j} (a_{j}^{L} - E_{j}^{r})^{2}

$C_{MST}(W, B, S^r, E^r) = 0.5\sum\limits_j (a^L_j - E^r_j)^2$

Gradien dari fungsi biaya ini sehubungan dengan output dari jaringan saraf dan beberapa sampel adalah: $r$

\nabla_{a} C_{M S T} = (a^{L} - E^{r})

$\nabla_a C_{MST} = (a^L - E^r)$

Biaya lintas-entropi

Juga dikenal sebagai Bernoulli negative log-likelihood dan Binary Cross-Entropy

C_{C E} (W, B, S^{r}, E^{r}) = - \sum_{j} [E_{j}^{r} ln a_{j}^{L} + (1 - E_{j}^{r}) ln (1 - a_{j}^{L})]

$C_{CE}(W, B, S^r, E^r) = -\sum\limits_j [E^r_j \text{ ln } a^L_j + (1 - E^r_j) \text{ ln }(1-a^L_j)]$

Gradien dari fungsi biaya ini sehubungan dengan output dari jaringan saraf dan beberapa sampel adalah: $r$

\nabla_{a} C_{C E} = \frac{(a^{L} - E^{r})}{(1 - a^{L}) (a^{L})}

$\nabla_a C_{CE} = \frac{(a^L - E^r)}{(1-a^L)(a^L)}$

Biaya eksponensial

Ini mengharuskan Anda memilih beberapa parameter yang menurut Anda akan memberi Anda perilaku yang Anda inginkan. Biasanya Anda hanya perlu bermain dengan ini sampai semuanya berjalan baik. $\tau$

C_{E X P} (W, B, S^{r}, E^{r}) = τ \exp (\frac{1}{τ} \sum_{j} (a_{j}^{L} - E_{j}^{r})^{2})

$C_{EXP}(W, B, S^r, E^r) = \tau\text{ }\exp(\frac{1}{\tau} \sum\limits_j (a^L_j - E^r_j)^2)$

di mana hanya singkatan untuk . $\text{exp}(x)$ $e^x$

Gradien dari fungsi biaya ini sehubungan dengan output dari jaringan saraf dan beberapa sampel adalah: $r$

\nabla_{a} C = \frac{2}{τ} (a^{L} - E^{r}) C_{E X P} (W, B, S^{r}, E^{r})

$\nabla_a C = \frac{2}{\tau}(a^L- E^r)C_{EXP}(W, B, S^r, E^r)$

Saya bisa menulis ulang , tapi itu sepertinya berlebihan. Titik adalah gradien yang menghitung vektor dan kemudian mengalikannya dengan . $C_{EXP}$ $C_{EXP}$

Jarak Hellinger

C_{H D} (W, B, S^{r}, E^{r}) = \frac{1}{\sqrt{2}} \sum_{j} (\sqrt{a_{j}^{L}} - \sqrt{E_{j}^{r}})^{2}

$C_{HD}(W, B, S^r, E^r) = \frac{1}{\sqrt{2}}\sum\limits_j(\sqrt{a^L_j}-\sqrt{E^r_j})^2$

Anda dapat menemukan lebih banyak tentang ini di sini . Ini perlu memiliki nilai positif, dan nilai idealnya antara dan . Hal yang sama berlaku untuk divergensi berikut. $0$ $1$

Gradien dari fungsi biaya ini sehubungan dengan output dari jaringan saraf dan beberapa sampel adalah: $r$

\nabla_{a} C = \frac{\sqrt{a^{L}} - \sqrt{E^{r}}}{\sqrt{2} \sqrt{a^{L}}}

$\nabla_a C = \frac{\sqrt{a^L}-\sqrt{E^r}}{\sqrt{2}\sqrt{a^L}}$

Divergensi Kullback – Leibler

Juga dikenal sebagai Divergensi Informasi , Penguatan Informasi , Entropi Relatif , KLIC , atau KL Divergence (Lihat di sini ).

Kullback – Leibler divergence biasanya dilambangkan ,

D_{K L} (P ‖ Q) = \sum_{i} P (i) \ln \frac{P (i)}{Q (i)}

$D_{\mathrm{KL}}(P\|Q) = \sum_i P(i) \, \ln\frac{P(i)}{Q(i)}$

di mana adalah ukuran dari informasi hilang ketika digunakan untuk mendekati . Jadi kami ingin mengatur dan , karena kami ingin mengukur berapa banyak informasi yang hilang ketika kami menggunakan untuk memperkirakan . Ini memberi kita $D_{\mathrm{KL}}(P\|Q)$ $Q$ $P$ $P=E^i$ $Q=a^L$ $a^i_j$ $E^i_j$

C_{K L} (W, B, S^{r}, E^{r}) = \sum_{j} E_{j}^{r} \log \frac{E_{j}^{r}}{a_{j}^{L}}

$C_{KL}(W, B, S^r, E^r)=\sum\limits_jE^r_j \log \frac{E^r_j}{a^L_j}$

Divergensi lain di sini menggunakan ide ini sama menetapkan dan . $P=E^i$ $Q=a^L$

Gradien dari fungsi biaya ini sehubungan dengan output dari jaringan saraf dan beberapa sampel adalah: $r$

\nabla_{a} C = - \frac{E^{r}}{a^{L}}

$\nabla_a C = -\frac{E^r}{a^L}$

Divergensi umum Kullback – Leibler

Dari sini .

C_{G K L} (W, B, S^{r}, E^{r}) = \sum_{j} E_{j}^{r} \log \frac{E_{j}^{r}}{a_{j}^{L}} - \sum_{j} (E_{j}^{r}) + \sum_{j} (a_{j}^{L})

$C_{GKL}(W, B, S^r, E^r)=\sum\limits_j E^r_j \log \frac{E^r_j}{a^L_j} -\sum\limits_j(E^r_j) + \sum\limits_j(a^L_j)$

Gradien dari fungsi biaya ini sehubungan dengan output dari jaringan saraf dan beberapa sampel adalah: $r$

\nabla_{a} C = \frac{a^{L} - E^{r}}{a^{L}}

$\nabla_a C = \frac{a^L-E^r}{a^L}$

Itakura – jarak Saito

Juga dari sini .

C_{G K L} (W, B, S^{r}, E^{r}) = \sum_{j} (\frac{E_{j}^{r}}{a_{j}^{L}} - \log \frac{E_{j}^{r}}{a_{j}^{L}} - 1)

$C_{GKL}(W, B, S^r, E^r)= \sum_j \left(\frac {E^r_j}{a^L_j} - \log \frac{E^r_j}{a^L_j} - 1 \right)$

Gradien dari fungsi biaya ini sehubungan dengan output dari jaringan saraf dan beberapa sampel adalah: $r$

\nabla_{a} C = \frac{a^{L} - E^{r}}{{(a^{L})}^{2}}

$\nabla_a C = \frac{a^L-E^r}{\left(a^L\right)^2}$

Di mana . Dengan kata lain, hanya sama dengan mengkuadratkan setiap elemen . $\left(\left(a^L\right)^2\right)_j = a^L_j \cdot a^L_j$ $\left( a^L\right) ^2$ $a^L$

— Phylliida
sumber

Terima kasih telah berbagi, Anda juga dapat mempertimbangkan ini: github.com/torch/nn/blob/master/doc/criterion.md

— Yannis Assael

Anda memiliki kesalahan kecil dalam penyebut derivatif lintas-entropi, seharusnya a*(1-a)tidaka*(1+a)

— Amro

Akan lebih keren jika menunjukkan fungsi pinball loss untuk meminimalkan kesalahan kuantil daripada kesalahan rata-rata. Sangat digunakan dalam sistem pendukung keputusan.

— Ricardo Cruz

di mana saya bisa melihat grafik untuk ini?

— coiso

Sehubungan dengan Fungsi Biaya Kuadratik, Anda harus mencatat bahwa "kesalahan kuadrat rata-rata" "kemungkinan maksimum" "jumlah kesalahan kuadrat". Penulis dapat menggunakan nama (salah) secara bergantian, tetapi mereka bukan hal yang sama.

\neq

$\neq$

\neq

$\neq$

— Jon

Tidak memiliki reputasi untuk berkomentar, tetapi ada kesalahan tanda pada 3 gradien terakhir.

Dalam perbedaan KL, Ini kesalahan tanda yang sama muncul dalam divergensi KL Umum.

\begin{aligned} C & = \sum_{j} E_{j} \log (E_{j} / a_{j}) \\ = \sum_{j} E_{j} \log (E_{j}) - E_{j} \log (a_{j}) \\ d C & = - \sum_{j} E_{j} d \log (a_{j}) \\ = - \sum_{j} (E_{j} / a_{j}) d a_{j} \\ \nabla_{a} C & = \frac{- E}{a} \end{aligned}

$\eqalign{ C &= \sum_j E_j\log(E_j/a_j) \cr &= \sum_j E_j\log(E_j) - E_j\log(a_j) \cr\cr dC &= -\sum_j E_j\,\,d\log(a_j) \cr &= -\sum_j (E_j/a_j)\,da_j \cr\cr \nabla_a C &= \frac{-E}{a} \cr\cr }$

Dalam jarak Itakura-Saito,

\begin{aligned} C & = \sum_{j} (E_{j} / a_{j}) - \log (E_{j} / a_{j}) - 1 \\ = \sum_{j} (E_{j} / a_{j}) - \log (E_{j}) + \log (a_{j}) - 1 \\ d C & = \sum_{j} (- E_{j} / a_{j}^{2}) d a_{j} + d \log (a_{j}) \\ = \sum_{j} (1 / a_{j}) d a_{j} - (E_{j} / a_{j}^{2}) d a_{j} \\ = \sum_{j} (a_{j} - E_{j}) / a_{j}^{2} d a_{j} \\ \nabla_{a} C & = \frac{a - E}{(a)^{2}} \end{aligned}

$\eqalign{ C &= \sum_j (E_j/a_j) - \log(E_j/a_j) - 1 \cr &= \sum_j (E_j/a_j) - \log(E_j) + \log(a_j) -1 \cr\cr dC &= \sum_j (-E_j/a^2_j)\,da_j + d\log(a_j) \cr &= \sum_j (1/a_j)\,da_j - (E_j/a^2_j)\,da_j \cr &= \sum_j (a_j-E_j)/a^2_j\,\,\,da_j \cr\cr \nabla_a C &= \frac{a-E}{(a)^2} \cr }$

— jujur
sumber