Apa yang dimaksud dengan gradient-log-normalizer?

Di wiki, fungsi softmax didefinisikan sebagai gradient-log-normalizer dari distribusi probabilitas kategorikal . Penjelasan parsial untuk log-normalizer ditemukan di sini , tetapi apa yang dimaksud dengan gradient-log-normalizer ?

softmax

— tashuhka
sumber

Menggunakan notasi dari halaman wikipedia ( https://en.wikipedia.org/wiki/Exponential_family ), keluarga eksponensial adalah keluarga distribusi probabilitas yang memiliki pmfs / pdf yang dapat ditulis sebagai (mencatat bahwa , dapat berupa nilai vektor): mana adalah parameter alami, adalah statistik yang cukup, dan adalah penormalkan log (kadang-kadang disebut fungsi partisi log). Alasan disebut log normalizer, karena dapat diverifikasi bahwa, dalam kasus berkelanjutan, untuk ini menjadi pdf yang valid, kita harus memiliki $\theta$ $x$

f_{θ} (x) = h (x) \exp [η (θ)^{T} t (x) - A (θ)]

$f_{\theta}(x)=h(x)\exp[\eta(\theta)^Tt(x)-A(\theta)]$

η (θ) = η

$\eta(\theta)=\eta$

t (x)

$t(x)$

A (θ)

$A(\theta)$

A (θ)

$A(\theta)$

A (θ) = \log [\int h (x) \exp [η (θ)^{T} t (x)] d x],

$A(\theta)=\log\left[\int h(x)\exp[\eta(\theta)^Tt(x)]dx\right],$ dan dalam kasus terpisah, untuk ini menjadi pmf yang valid , kita harus memiliki Dalam setiap kasus kami perhatikan bahwa dan adalah konstanta normalisasi dari distribusi, oleh karena itu nama log normalizer.

SEBUAH (θ) = catatan [\sum_{x} h (x) \exp [η (θ)^{T} t (x)]] .

$A(\theta)=\log\left[\sum_x h(x)\exp[\eta(\theta)^Tt(x)]\right].$

\int h (x) \exp [η (θ)^{T} t (x)] d x

$\int h(x)\exp[\eta(\theta)^Tt(x)]dx$

\sum_{x} h (x) \exp [η (θ)^{T} t (x)]

$\sum_x h(x)\exp[\eta(\theta)^Tt(x)]$

Sekarang untuk melihat hubungan spesifik antara fungsi softmax dan distribusi dimensi , kita harus menggunakan parameterisasi spesifik dari distribusi. Yaitu, biarkan menjadi sedemikian rupa sehingga dan , dan tentukan (membiarkan ). PMF untuk distribusi ini adalah (membiarkan menjadi satu vektor panas, yaitu dan untuk ): $k$ $\theta_1,\cdots,\theta_{k-1}$ $0<\theta_1,\cdots,\theta_{k-1}$ $\sum_{i=1}^{k-1}\theta_i<1$ $\theta_k=1-\sum_{i=1}^{k-1}\theta_i$ $\theta=(\theta_1,\cdots,\theta_{k})$ $x=(x_1,\cdots,x_{k})$ $x_i=1$ $x_j=0$ $i\neq j$

f_{θ} (x) = \prod_{saya = 1}^{k} θ_{saya}^{x_{saya}} .

$f_{\theta}(x)=\prod_{i=1}^k\theta_i^{x_i}.$ Untuk menulis ini sebagai keluarga eksponensial, perhatikan bahwa , , , dan , jadi:

h (x) = 1

$h(x)=1$

η (θ) = (\log [θ_{1} / θ_{k}], \dots, \log [θ_{k - 1} / θ_{k}], 0)

$\eta(\theta)=(\log[\theta_1/\theta_k],\cdots, \log[\theta_{k-1}/\theta_k],0)$

t (x) = (x_{1}, \dots, x_{k})

$t(x)=(x_1,\cdots,x_{k})$

A (θ) = - \log [θ_{k}]

$A(\theta)=-\log[\theta_k]$

f_{θ} (x) = \exp [(\log [θ_{1} / θ_{k}], \dots, \log [θ_{k - 1} / θ_{k}], 0)^{T} (x_{1}, \dots, x_{k}) - (- \log [θ_{k}])] .

$f_{\theta}(x)=\exp[(\log[\theta_1/\theta_k],\cdots, \log[\theta_{k-1}/\theta_k],0)^T(x_1,\cdots,x_{k})-(-\log[\theta_k])].$

Sekarang mari kita menulis , sehingga kita dapat menulis . Kemudian log normalizer menjadi Mengambil turunan parsial sehubungan dengan , kami menemukan mengungkapkan bahwa gradien log normalizer memang fungsi softmax: $\eta(\theta_i)=\log[\theta_i/\theta_k]=\eta_i$ $\theta_i=\frac{e^{\eta_i}}{\sum_{j=1}^ke^{\eta_j}}$

SEBUAH (η) = - catatan [\frac{e^{η_{k}}}{\sum_{j = 1}^{k} e^{η_{j}}}] = - catatan [\frac{1}{\sum_{j = 1}^{k} e^{η_{j}}}] = catatan [\sum_{j = 1}^{k} e^{η_{j}}] .

$A(\eta)=-\log\left[\frac{e^{\eta_k}}{\sum_{j=1}^ke^{\eta_j}}\right]= -\log\left[\frac{1}{\sum_{j=1}^ke^{\eta_j}}\right]=\log\left[\sum_{j=1}^ke^{\eta_j}\right].$

η_{i}

$\eta_i$

\frac{\partial}{\partial η_{i}} A (η) = \frac{e^{η_{i}}}{\sum_{j = 1}^{k} e^{η_{j}}},

$\frac{\partial}{\partial \eta_i}A(\eta)=\frac{e^{\eta_i}}{\sum_{j=1}^ke^{\eta_j}},$

\nabla A (η) = [\frac{e^{η_{1}}}{\sum_{j = 1}^{k} e^{η_{j}}}, \dots, \frac{e^{η_{k}}}{\sum_{j = 1}^{k} e^{η_{j}}}] .

$\nabla A(\eta)=\left[\frac{e^{\eta_1}}{\sum_{j=1}^ke^{\eta_j}},\cdots,\frac{e^{\eta_k}}{\sum_{j=1}^ke^{\eta_j}}\right].$

— aleshing
sumber

Wow!! Itu penjelasan yang bagus dan sepenuhnya masuk akal. Terima kasih :)

— tashuhka

Saya sudah lama mencari derivasi ini! Saya bertanya-tanya, dalam konteks apa Anda harus mengembangkan pengetahuan ini? Apakah Anda melihat ini sebagai bagian dari kursus atau buku teks? Saya terus mencari referensi untuk hubungan ini di internet tetapi tidak ada yang benar-benar memberikan detailnya.

— zipzapboing

@zipzapboing Saya sebenarnya tidak tahu properti softmax ini sampai saya melihat pertanyaan OP! Namun saya memang memiliki kursus statistik tingkat casella dan berger (di mana keluarga eksponensial dan beberapa properti lainnya diperkenalkan) di bawah ikat pinggang saya, yang memungkinkan saya untuk mengetahui bahwa membuktikan properti tidak akan sulit dengan parameterisasi yang tepat.

— aleshing