9
Mengapa menggunakan softmax sebagai lawan dari normalisasi standar?
Pada lapisan output dari jaringan saraf, biasanya menggunakan fungsi softmax untuk memperkirakan distribusi probabilitas: Ini mahal untuk dihitung karena eksponen. Mengapa tidak hanya melakukan transformasi Z sehingga semua output positif, dan kemudian menormalkan hanya dengan membagi semua output dengan jumlah semua output?