Saya mengamati bahwa Caffe (kerangka pembelajaran yang mendalam) menggunakan Softmax Loss Layer SoftmaxWithLoss
sebagai lapisan keluaran untuk sebagian besar sampel model .
Sejauh yang saya tahu, lapisan Softmax Loss adalah kombinasi dari Multinomial Logistic Loss Layer dan Softmax Layer .
Dari Caffe, mereka mengatakan itu
Komputasi gradien Softmax Loss Layer lebih stabil secara numerik
Namun, penjelasan ini bukan jawaban yang saya inginkan, penjelasannya hanya membandingkan kombinasi Multinomial Logistic Loss Layer dan Softmax Loss layer alih-alih lapis demi lapis. Tetapi tidak dibandingkan dengan jenis fungsi kerugian lainnya.
Namun, saya ingin tahu lebih lanjut apa perbedaan / kelebihan / kekurangan dari 3 fungsi kesalahan ini yaitu Multinomial Logistic Loss , Cross Entropy (CE) dan Square Error (SE) dalam perspektif pembelajaran terawasi? Adakah artikel yang mendukung?
y-t
. willamette.edu/~gorr/classes/cs449/classify.html