Mereka, pada kenyataannya, setara, dalam arti bahwa satu dapat diubah menjadi yang lain.
Misalkan data Anda diwakili oleh vektor , dari dimensi arbitrer, dan Anda membuat classifier biner untuk itu, menggunakan transformasi affine diikuti oleh softmax:x
(z0z1)=(wT0wT1)x+(b0b1),
P(Ci|x)=softmax(zi)=eziez0+ez1,i∈{0,1}.
Mari kita ubah menjadi classifier biner setara yang menggunakan sigmoid, bukan softmax. Pertama-tama, kita harus memutuskan probabilitas mana yang kita inginkan dari sigmoid untuk output (yang bisa untuk kelas atau ). Pilihan ini benar-benar arbitrer dan jadi saya memilih kelas . Kemudian, classifier saya akan berbentuk:C0C1C0
z′=w′Tx+b′,
P(C0|x)=σ(z′)=11+e−z′,
P(C1|x)=1−σ(z′).
Pengklasifikasi sama jika probabilitasnya sama, jadi kita harus memaksakan:
σ(z′)=softmax(z0)
Mengganti , dan dengan ekspresi mereka dalam bentuk dan dan melakukan beberapa hal langsung manipulasi aljabar, Anda dapat memverifikasi bahwa kesetaraan di atas berlaku jika dan hanya jika dan diberikan oleh:z0z1z′w0,w1,w′,b0,b1,b′xw′b′
w′=w0−w1,
b′=b0−b1.