0-1 Penjelasan Fungsi Kehilangan

19

Saya mencoba untuk memahami apa tujuan dari fungsi kerugian dan saya tidak bisa memahaminya.

Jadi, sejauh yang saya mengerti fungsi kerugian adalah untuk memperkenalkan semacam metrik bahwa kita dapat mengukur "biaya" dari keputusan yang salah.

Jadi katakanlah saya memiliki dataset 30 objek, saya membaginya dengan set pelatihan / pengujian seperti 20 / 10. Saya akan menggunakan fungsi kerugian 0-1, jadi katakanlah set label kelas saya adalah M dan fungsinya terlihat seperti ini :

L (i, j) = {\begin{cases} 0 i = j \\ 1 i \neq j \end{cases} i, j \in M

$L(i, j) = \begin{cases} 0 \qquad i = j \\ 1 \qquad i \ne j \end{cases} \qquad i,j \in M$

Jadi saya membangun beberapa model pada data pelatihan saya, katakanlah saya menggunakan classifier Naive Bayes, dan model ini mengklasifikasikan 7 objek dengan benar (memberi mereka label kelas yang benar) dan 3 objek diklasifikasikan dengan tidak benar.

Jadi fungsi kerugian saya akan mengembalikan "0" 7 kali dan "1" 3 kali - informasi apa yang bisa saya dapatkan dari itu? Bahwa model saya mengklasifikasikan 30% objek secara salah? Atau ada yang lebih dari itu?

Jika ada kesalahan dalam cara berpikir saya, saya sangat menyesal, saya hanya mencoba untuk belajar. Jika contoh yang saya berikan "terlalu abstrak", beri tahu saya, saya akan mencoba untuk lebih spesifik. Jika Anda akan mencoba menjelaskan konsep menggunakan contoh berbeda, silakan gunakan fungsi kerugian 0-1.

machine-learning loss-functions

— Johnny Johansson
sumber

14

Anda telah meringkas fungsi kerugian 0-1 dengan benar dan melihat keakuratan dengan efektif. 1 Anda menjadi indikator untuk item yang salah diklasifikasikan, terlepas dari bagaimana mereka salah diklasifikasikan. Karena Anda memiliki tiga 1 dari 10 item, akurasi klasifikasi Anda adalah 70%.

Jika Anda mengubah bobot pada fungsi kerugian, interpretasi ini tidak berlaku lagi. Misalnya, dalam klasifikasi penyakit, mungkin lebih mahal untuk melewatkan kasus positif penyakit (false negative) daripada mendiagnosis penyakit secara palsu (false positive). Dalam hal ini, fungsi kerugian Anda akan lebih berat kesalahan klasifikasi negatif palsu. Jumlah kerugian Anda tidak lagi mewakili keakuratan dalam kasus ini, melainkan total "biaya" kesalahan klasifikasi. Fungsi kerugian 0-1 unik dalam kesetaraannya dengan keakuratan, karena semua yang Anda pedulikan adalah apakah Anda melakukannya dengan benar atau tidak, dan bukan bagaimana kesalahan dibuat.

— Wang Nuklir
sumber

@JohnnyJohansson yang merupakan definisi dari akurasi dalam statistik, lihat en.wikipedia.org/wiki/Sensitivity_and_specificity

— Tim

@Tim - Saya masih bingung dengan fungsi kerugian 0-1 - dapatkah matriks yang dihasilkan memiliki nilai lebih besar dari 1, yaitu jika ada 3 klasifikasi yang hilang kita akan melihat nilai 3 pada entri yang sesuai? lihat di sini math.stackexchange.com/questions/2623072/...

— Xavier Bourret Sicotte

2

$L_1$ $L_2$

— Tim
sumber

0

Saya pikir kebingungan Anda tidak membedakan kerugian untuk satu titik data vs kerugian untuk seluruh kumpulan data.

$L(y,\hat y)$

\sum_{saya} L. (y_{saya}, {\hat{y}}_{saya})

$\sum_i L(y_i,\hat y_i)$

— Haitao Du
sumber

Saya benar-benar mendapatkan perbedaannya, tetapi sulit bagi saya untuk memahami apa yang akan saya butuhkan kerugian ini untuk satu titik data selain menghitung kerugian untuk seluruh dataset? Dan apa yang harus saya pertimbangkan ketika memilih fungsi kerugian yang memadai untuk beberapa masalah tertentu?

— Johnny Johansson