Log probabilitas yang mengacu pada classifier softmax


9

Dalam https://cs231n.github.io/neural-networks-case-study/ ini mengapa disebutkan "Softmax classifier menafsirkan setiap elemen ff sebagai memegang probabilitas log (tidak normal) dari tiga kelas."

Saya mengerti mengapa itu tidak dinormalkan tetapi tidak mengapa itu log? Apa arti probabilitas log?

Mengapa tidak mengatakan probabilitas yang tidak dinormalisasi?

Jawaban:


9

Ada perbedaan antara probabilitas dan probabilitas log. Jika probabilitas suatu peristiwa adalah 0,36787944117, yang kebetulan terjadi1/e, maka probabilitas log adalah -1.

Oleh karena itu, jika Anda diberi banyak kemungkinan log yang tidak dinormalisasi, dan Anda ingin memulihkan probabilitas asli, pertama-tama Anda mengambil eksponen dari semua angka Anda, yang memberi Anda probabilitas yang tidak dinormalisasi. Selanjutnya, Anda menormalkan mereka seperti biasa. Secara matematis, ini

pj=ezjiezi

dimana pj adalah probabilitas dari jkelas dan zi adalah input ke pengklasifikasi softmax.

Pertanyaan yang jelas adalah mengapa repot melakukan eksponen. Kenapa tidak digunakan

pj=zjizi

sebagai gantinya?

Salah satu alasan untuk ini adalah karena softmax bermain bagus dengan kehilangan lintas-entropi, yaitu Eq[logp]dimana qadalah distribusi yang sebenarnya (label). Secara intuitif, log dibatalkan dengan eksponen, yang sangat membantu kita.

Ternyata jika Anda mengambil gradien dari kehilangan lintas-entropi sehubungan dengan input ke classifier z, Anda mendapatkan

p1j

ketika label kebenaran dasar ada di kelas j dan 1jadalah vektor satu-panas yang sesuai. Ini adalah ungkapan yang sangat bagus dan mengarah pada interpretasi dan optimisasi yang mudah.

Di sisi lain, jika Anda mencoba menggunakan probabilitas yang tidak dinormalisasi bukannya probabilitas log yang tidak dinormalkan, Anda berakhir dengan gradien yang

1izi1jT1z

Ungkapan ini jauh kurang baik dalam hal interpretabilitas dan Anda juga dapat melihat masalah numerik potensial ketika z dekat dengan 0.

Alasan lain untuk menggunakan probabilitas log dapat dilihat dari regresi logistik, yang hanya merupakan kasus khusus dari klasifikasi softmax. Bentuk fungsi sigmoid berfungsi dengan baik karena, secara intuitif, saat Anda bergerak melintasi ruang fitur, kemungkinan kelas tidak bervariasi secara linear dengan input. Tekuk tajam dalam fungsi sigmoid, yang menekankan batas tajam antara dua kelas, sebenarnya adalah hasil dari istilah eksponensial yang kita terapkan pada input softmax.


Di mana log dalam ekspresi probabilitas log yang tidak diformalkan?
Abhishek Bhatia

1
Log berasal dari fakta bahwa catatanhaljzj. Log probabilitas adalah probabilitas log. Karena dalam posting saya, saya pergi ke arah yang berlawanan - log probabilitas ke probabilitas, saya menggunakan exp bukan log.
shimao
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.