Secara umum, ketika Anda memiliki masalah di mana sampel hanya dapat milik satu kelas di antara sekumpulan kelas, Anda mengatur lapisan terakhir menjadi lapisan soft-max. Ini memungkinkan Anda untuk menafsirkan output sebagai probabilitas. Ketika menggunakan lapisan soft-max, cross entropy umumnya bekerja dengan sangat baik, karena istilah logaritmik dalam cross-entropy membatalkan dataran tinggi yang ada dalam fungsi soft-max, oleh karena itu mempercepat proses pembelajaran (pikirkan poin yang jauh dari pada fungsi sigmoid).0
Dalam kasus Anda, Anda memiliki tugas klasifikasi biner, oleh karena itu layer output Anda bisa menjadi sigmoid standar (di mana output mewakili probabilitas sampel uji menjadi wajah). Kerugian yang akan Anda gunakan adalah binary cross-entropy. Dengan pengaturan ini, Anda dapat membayangkan memiliki regresi logistik di lapisan terakhir dari jaringan saraf Anda.
Berikut beberapa tautan untuk Anda. Semoga mereka bisa membantu.
https://en.wikipedia.org/wiki/Cross_entropy#Cross-entropy_error_function_and_logistic_regress
http://neuralnetworksanddeeplearning.com/chap3.html
https://www.quora.com/How-do-you-decide-which-loss- fungsi-untuk-digunakan-untuk-mesin-belajar
sigmoid
(sebagai aktivasi lapisan terakhir). Terima kasih