Apakah fungsi biaya lintas entropi untuk jaringan saraf cembung?

9

Guru saya membuktikan bahwa turunan kedua dari cross-entropy selalu positif, sehingga fungsi biaya jaringan saraf menggunakan cross entropy adalah cembung. Apakah ini benar? Saya cukup bingung tentang ini karena saya selalu belajar bahwa fungsi biaya JST adalah non-cembung. Adakah yang bisa mengkonfirmasi ini? Terima kasih banyak! http://z0rch.com/2014/06/05/cross-entropy-cost-function

neural-networks convex

— xuancanh
sumber

5

Tautan rusak?

— ebb-earl-co

7

Entropi silang dari keluarga eksponensial selalu cembung. Jadi, untuk jaringan saraf multilayer yang memiliki input , bobot , dan output , dan fungsi kerugian $x$ $w$ $y$ $L$

\nabla_{y}^{2} L

$\nabla^2_y L$

adalah cembung. Namun,

\nabla_{w}^{2} L

$\nabla^2_w L$

tidak akan menjadi cembung untuk parameter lapisan tengah karena alasan yang dijelaskan oleh iamonaboat.

— Neil G
sumber

5

Apa yang dikatakan @ngiann, dan secara informal, jika Anda mengubah urutan neuron di lapisan tersembunyi dan melakukan permutasi yang sama pada bobot lapisan yang berdekatan maka kerugiannya tidak berubah.

Karenanya, jika ada minimum global nol sebagai fungsi bobot, maka itu tidak bisa unik karena permutasi bobot memberikan minimum global yang lain. Karenanya fungsinya tidak cembung.

Matriks dari semua turunan parsial kedua (Hessian) bukanlah semidefinit positif, atau semidefinit negatif. Karena turunan kedua adalah sebuah matriks, mungkin saja itu bukan salah satunya.

— imonaboat
sumber

Jika Anda ingin menjadi orang yang bertele-tele daripada informal, definisi umum tentang konveksitas fungsi tidak memerlukan minimum global yang unik, jadi ketidak-unikan dari minima tidak menyiratkan non-konveksitas. Namun, mengubah bobot dengan cara ini juga tidak mengubah output aktual dari jaringan Anda, jadi bahkan tanpa kecemburuan, Anda masih bisa memiliki properti yang dikonversikan fungsi pelatihan Anda ke fungsi ~ yang sama setiap waktu. Saya yakin ada cara untuk memecah simetri ini untuk memesan bobot tanpa merusak properti fungsi kerugian lainnya.

— Andrew Wagner

3

Anda benar dalam mencurigai bahwa masalah optimasi JST dari masalah lintas-entropi akan menjadi non-cembung. Catatan: kita berbicara tentang jaringan saraf dengan fungsi aktivasi non-linear di lapisan tersembunyi. Jika Anda tidak menggunakan fungsi aktivasi non-linear maka JST Anda menerapkan fungsi linear dan masalahnya akan menjadi cembung.

Jadi alasan mengapa optimalisasi cross-entropy dari JST adalah non-cembung adalah karena parametrisation yang mendasari JST. Jika Anda menggunakan jaringan saraf linier, Anda dapat membuatnya cembung (pada dasarnya akan terlihat seperti regresi logistik yang merupakan masalah cembung).

— ngiann
sumber