Apakah saya tetap bisa menggunakan fungsi cross entropy loss dengan label lunak?

Saya memiliki masalah klasifikasi di mana piksel akan dilabeli dengan label lunak (yang menunjukkan probabilitas) daripada label 0,1 yang sulit. Sebelumnya dengan 0,1 pixel pelabelan keras fungsi kehilangan entropi silang (sigmoidCross entropyLossLayer dari Caffe) memberikan hasil yang layak. Apakah saya tetap menggunakan lapisan sigmoid cross entropy loss (dari Caffe) untuk masalah klasifikasi lunak ini?

classification loss-functions

— saikat
sumber

Saya mencari fungsi lintas entropi yang dapat menangani label bernilai riil. Tolong beri tahu saya jika Anda tahu jawabannya di sini

— Amir

Jawabannya adalah ya, tetapi Anda harus mendefinisikannya dengan cara yang benar.

Cross entropy didefinisikan pada distribusi probabilitas, bukan pada nilai tunggal. Untuk distribusi diskrit $p$ dan $q$ , ini:

H (hal, q) = - \sum_{y} hal (y) catatan q (y)

$H(p, q) = -\sum_y p(y) \log q(y)$

Ketika cross entropy loss digunakan dengan label kelas 'keras', apa yang sebenarnya berarti ini adalah memperlakukan $p$ sebagai distribusi empiris bersyarat atas label kelas. Ini adalah distribusi di mana probabilitasnya adalah 1 untuk label kelas yang diamati dan 0 untuk semua yang lain. $q$ adalah distribusi kondisional (probabilitas label kelas, input yang diberikan) yang dipelajari oleh classifier. Untuk satu titik data yang diamati dengan input $x_0$ dan kelas $y_0$ , kita dapat melihat bahwa ekspresi di atas berkurang menjadi hilangnya log standar (yang akan dirata-rata pada semua titik data):

- \sum_{y} saya {y = y_{0}} catatan q (y ∣ x_{0}) = - catatan q (y_{0} ∣ x_{0})

$-\sum_y I\{y = y_0\} \log q(y \mid x_0) = -\log q(y_0 \mid x_0)$

Sini, $I\{\cdot\}$ adalah fungsi indikator, yaitu 1 ketika argumennya benar atau 0 sebaliknya (inilah yang dilakukan distribusi empiris). Jumlahnya diambil dari set label kelas yang mungkin.

Dalam kasus label 'lunak' seperti yang Anda sebutkan, label itu bukan lagi identitas kelas itu sendiri, tetapi probabilitas atas dua kelas yang mungkin. Karena itu, Anda tidak dapat menggunakan ekspresi standar untuk kehilangan log. Namun, konsep cross entropy masih berlaku. Bahkan, tampaknya lebih alami dalam hal ini.

Mari kita panggil kelas $y$ , yang bisa 0 atau 1. Dan, katakanlah label lunak $s(x)$ memberikan probabilitas bahwa kelasnya 1 (diberi input yang sesuai $x$ ). Jadi, label lunak mendefinisikan distribusi probabilitas:

hal (y ∣ x) = {\begin{array}{cl} s (x) & Jika y = 1 \\ 1 - s (x) & Jika y = 0 \end{array}

$p(y \mid x) = \left \{ \begin{array}{cl} s(x) & \text{If } y = 1 \\ 1-s(x) & \text{If } y = 0 \end{array} \right .$

Pengklasifikasi juga memberikan distribusi pada kelas, diberi input:

q (y ∣ x) = {\begin{array}{cl} c (x) & Jika y = 1 \\ 1 - c (x) & Jika y = 0 \end{array}

$q(y \mid x) = \left \{ \begin{array}{cl} c(x) & \text{If } y = 1 \\ 1-c(x) & \text{If } y = 0 \end{array} \right .$

Sini, $c(x)$ adalah probabilitas estimasi classifier bahwa kelasnya adalah 1, diberikan input $x$ .

Tugasnya sekarang adalah untuk menentukan seberapa berbedanya kedua distribusi ini, menggunakan cross entropy. Masukkan ungkapan-ungkapan ini untuk $p$ dan $q$ ke dalam definisi entropi silang, di atas. Jumlahnya diambil dari sekumpulan kelas yang memungkinkan $\{0, 1\}$ :

\begin{array}{ccl} H (hal, q) & = & - hal (y = 0 ∣ x) catatan q (y = 0 ∣ x) - hal (y = 1 ∣ x) catatan q (y = 1 ∣ x) \\ = & - (1 - s (x)) catatan (1 - c (x)) - s (x) catatan c (x) \end{array}

$\begin{array}{ccl} H(p, q) & = & - p(y=0 \mid x) \log q(y=0 \mid x) - p(y=1 \mid x) \log q(y=1 \mid x)\\ & = & -(1-s(x)) \log (1-c(x)) - s(x) \log c(x) \end{array}$

Itulah ungkapan untuk titik data tunggal yang diamati. Fungsi kerugian akan menjadi rata-rata di semua titik data. Tentu saja, ini dapat digeneralisasikan ke klasifikasi multikelas juga.

— pengguna20160
sumber

Saya terus kembali ke kejernihan jawaban ini.

— auro