Saya tahu ini adalah posting yang terlambat, tapi saya merasa masih ada nilai dalam memberikan pembenaran bagi mereka yang kebetulan mendarat di sini.
Anda tidak sepenuhnya salah. Ini sewenang-wenang sampai batas tertentu, tetapi mungkin sewenang-wenang adalah kata yang salah. Ini lebih seperti pilihan desain. Biarkan saya jelaskan.
Ternyata Softmax sebenarnya adalah generalisasi dari fungsi Sigmoid, yang merupakan unit keluaran Bernoulli (output 0 atau 1):
[ 1 + exp ( - z)]- 1
Tapi dari mana fungsi Sigmoid berasal, Anda mungkin bertanya.
Nah, ternyata banyak distribusi probabilitas yang berbeda termasuk Bernoulli, distribusi Poisson, Gaussian, dll mengikuti sesuatu yang disebut Generalized Linear Model (GLM). Artinya, mereka dapat diekspresikan dalam hal:
P( y;η) = b ( y) exp [ηTT( y) - a ( η) ]
Saya tidak akan membahas semua parameter ini, tetapi Anda tentu bisa meneliti ini.
Perhatikan contoh berikut tentang bagaimana distribusi Bernoulli dalam keluarga GLM:
P( y= 1 ) = ϕP( y= 0 ) = 1 - ϕP( y) =ϕy( 1 - ϕ)1 - y= exp ( ylog ( ϕ ) + ( 1 - y) log ( 1 - ϕ ) )= exp ( ylog ( ϕ ) + log ( 1 - ϕ ) - ylog ( 1 - ϕ ) )= exp ( ylog (ϕ1 - ϕ) + log ( 1 - ϕ ) )
Anda dapat melihat bahwa dalam hal ini,
b ( y) = 1T( y) = yη= log (ϕ1 - ϕ)a ( η) = - log ( 1 - ϕ )
Perhatikan apa yang terjadi ketika kita menyelesaikannya ϕ dengan kondisi η:
η= log (ϕ1 - ϕ)eη=ϕ1 - ϕe- η=1 - ϕϕ=1ϕ- 1e- η+ 1 =1ϕϕ = [ exp ( - η) + 1]- 1
Jadi untuk mendapatkan ϕ = P( y= 1 ), kami mengambil sigmoid dari η. Pilihan desain datang untuk bermain ketika kita menganggap ituη=wTxdimana w adalah bobot dan x adalah data Anda, yang keduanya kami anggap sebagai ∈Rn. Dengan membuat asumsi ini, kita bisa cocokw untuk perkiraan ϕ.
Jika Anda harus melalui proses yang sama untuk distribusi Multinoulli, Anda akan mendapatkan fungsi softmax.