Log probabilitas yang mengacu pada classifier softmax

Dalam https://cs231n.github.io/neural-networks-case-study/ ini mengapa disebutkan "Softmax classifier menafsirkan setiap elemen ff sebagai memegang probabilitas log (tidak normal) dari tiga kelas."

Saya mengerti mengapa itu tidak dinormalkan tetapi tidak mengapa itu log? Apa arti probabilitas log?

Mengapa tidak mengatakan probabilitas yang tidak dinormalisasi?

— Abhishek Bhatia
sumber

Ada perbedaan antara probabilitas dan probabilitas log. Jika probabilitas suatu peristiwa adalah 0,36787944117, yang kebetulan terjadi $1/e$ , maka probabilitas log adalah -1.

Oleh karena itu, jika Anda diberi banyak kemungkinan log yang tidak dinormalisasi, dan Anda ingin memulihkan probabilitas asli, pertama-tama Anda mengambil eksponen dari semua angka Anda, yang memberi Anda probabilitas yang tidak dinormalisasi. Selanjutnya, Anda menormalkan mereka seperti biasa. Secara matematis, ini

p_{j} = \frac{e^{z_{j}}}{\sum_{i} e^{z_{i}}}

$p_j = \frac{e^{z_j}}{\sum_i e^{z_i}}$

dimana $p_j$ adalah probabilitas dari $j$ kelas dan $z_i$ adalah input ke pengklasifikasi softmax.

Pertanyaan yang jelas adalah mengapa repot melakukan eksponen. Kenapa tidak digunakan

p_{j} = \frac{z_{j}}{\sum_{i} z_{i}}

$p_j = \frac{z_j}{\sum_i z_i}$

sebagai gantinya?

Salah satu alasan untuk ini adalah karena softmax bermain bagus dengan kehilangan lintas-entropi, yaitu $-E_q[\log p]$ dimana $q$ adalah distribusi yang sebenarnya (label). Secara intuitif, log dibatalkan dengan eksponen, yang sangat membantu kita.

Ternyata jika Anda mengambil gradien dari kehilangan lintas-entropi sehubungan dengan input ke classifier $\vec z$ , Anda mendapatkan

\vec{p} - 1_{j}

$\vec p - 1_j$

ketika label kebenaran dasar ada di kelas $j$ dan $1_j$ adalah vektor satu-panas yang sesuai. Ini adalah ungkapan yang sangat bagus dan mengarah pada interpretasi dan optimisasi yang mudah.

Di sisi lain, jika Anda mencoba menggunakan probabilitas yang tidak dinormalisasi bukannya probabilitas log yang tidak dinormalkan, Anda berakhir dengan gradien yang

\frac{1}{\sum_{i} z_{i}} - {\vec{1}}_{j}^{T} \frac{1}{z}

$\frac{1}{\sum_i z_i} - \vec 1_j^T\frac{1}{z}$

Ungkapan ini jauh kurang baik dalam hal interpretabilitas dan Anda juga dapat melihat masalah numerik potensial ketika $z$ dekat dengan 0.

Alasan lain untuk menggunakan probabilitas log dapat dilihat dari regresi logistik, yang hanya merupakan kasus khusus dari klasifikasi softmax. Bentuk fungsi sigmoid berfungsi dengan baik karena, secara intuitif, saat Anda bergerak melintasi ruang fitur, kemungkinan kelas tidak bervariasi secara linear dengan input. Tekuk tajam dalam fungsi sigmoid, yang menekankan batas tajam antara dua kelas, sebenarnya adalah hasil dari istilah eksponensial yang kita terapkan pada input softmax.

— shimao
sumber

Di mana log dalam ekspresi probabilitas log yang tidak diformalkan?

— Abhishek Bhatia

Log berasal dari fakta bahwa

\log p_{j} \propto z_{j}

$\log p_j \propto z_j$ . Log probabilitas adalah probabilitas log. Karena dalam posting saya, saya pergi ke arah yang berlawanan - log probabilitas ke probabilitas, saya menggunakan exp bukan log.

— shimao