Algoritma pembelajaran mesin seperti pengklasifikasi secara statistik memodelkan data input, di sini, dengan menentukan probabilitas input milik kategori yang berbeda. Untuk jumlah kelas yang berubah-ubah, biasanya lapisan softmax ditambahkan ke model sehingga output akan memiliki sifat probabilistik dengan desain:
y⃗ = softmax ( a⃗ ) ≡ 1∑sayae- asaya× [ e- a1, e- a2, . . . , e- an]
y 1 + y 2
0 ≤ ysaya≤ 1 untuk semua i
y1+ y2+ . . . + yn= 1
Sebuah
Ini benar-benar berlaku untuk dua kelas, namun, satu juga dapat menggunakan satu neuron (bukan dua) mengingat outputnya memuaskan:
0≤y≤1 for all inputs.
ay
sigmoid(a)≡σ(a)≡11+e−a
sifat matematika yang berguna (diferensiasi, dibatasi antara 0 dan 1, dll.), efisiensi komputasi, dan memiliki kemiringan yang tepat sehingga memperbarui bobot jaringan akan memiliki perubahan kecil tetapi terukur dalam output untuk keperluan optimasi.
Kesimpulan
Saya tidak yakin apakah alasan @ itdxer yang menunjukkan softmax dan sigmoid setara jika valid, tetapi ia benar tentang memilih 1 neuron berbeda dengan 2 neuron untuk pengklasifikasi biner karena lebih sedikit parameter dan perhitungan yang diperlukan. Saya juga telah dikritik karena menggunakan dua neuron untuk pengklasifikasi biner karena "itu berlebihan".