Masalahnya adalah:
Turunkan gradien sehubungan dengan lapisan input untuk jaringan saraf lapisan tersembunyi tunggal menggunakan sigmoid untuk input -> hidden, softmax untuk hidden -> output, dengan kehilangan entropi silang.
Saya dapat melewati sebagian besar derivasi menggunakan aturan rantai tetapi saya tidak yakin tentang bagaimana sebenarnya "rantai" mereka bersama-sama.
Tentukan beberapa notasi
, σ adalah fungsi sigmoid
,
,Sadalah fungsi Softmax
, y adalah label nyata satu-panas vektor
Kemudian dengan aturan rantai,
Gradien individu adalah:
∂q
Sekarang kita harus merangkai definisi bersama. Dalam variabel tunggal ini mudah, kami hanya mengalikan semuanya. Dalam vektor, saya tidak yakin apakah akan menggunakan perkalian elemen-bijaksana atau perkalian matriks.
Terima kasih!