F1 / Skor-Dadu vs IoU

Saya bingung tentang perbedaan antara skor F1, skor Dice dan IoU (persimpangan atas persatuan). Sekarang saya mengetahui bahwa F1 dan Dice memiliki arti yang sama (benar?) Dan IoU memiliki formula yang sangat mirip dengan dua lainnya.

F1 / Dadu: $\frac{2 T P}{2 T P + F P + F N}$ $\frac{2TP}{2TP+FP+FN}$
IoU / Jaccard: $\frac{T P}{T P + F P + F N}$ $\frac{TP}{TP+FP+FN}$

Adakah perbedaan praktis atau hal-hal lain yang perlu diperhatikan kecuali bahwa F1 memberi bobot pada positif-sejati lebih tinggi? Apakah ada situasi di mana saya akan menggunakan satu tetapi tidak yang lain?

terminology accuracy precision-recall

— pietz
sumber

Tampaknya koefisien Jaccard juga sama dengan IoU

— pietz

Saya akan sangat tertarik jika beberapa pengukuran ini (sekarang 4) hanya dimaksudkan untuk data biner.

— pietz

Anda berada di jalur yang benar.

Jadi beberapa hal langsung terjadi. Dari definisi dua metrik, kita memiliki bahwa skor IoU dan F selalu dalam faktor 2 satu sama lain: dan juga bahwa mereka bertemu pada ekstrem satu dan nol dalam kondisi yang Anda harapkan (pasangan sempurna dan benar-benar terpisah).

F / 2 \leq I o U \leq F

$F/2 \leq IoU \leq F$

Perhatikan juga bahwa rasio di antara keduanya dapat dikaitkan secara eksplisit dengan IoU: sehingga rasio mendekati 1/2 karena kedua metrik mendekati nol.

I o U / F = 1 / 2 + I o U / 2

$IoU/F = 1/2 + IoU/2$

Tapi ada pernyataan yang lebih kuat yang bisa dibuat untuk aplikasi klasifikasi a la machine. Untuk "kebenaran dasar" tetap apa pun, kedua metrik selalu berkorelasi positif. Artinya, jika classifier A lebih baik daripada B di bawah satu metrik, itu juga lebih baik daripada classifier B di bawah metrik lainnya.

Sangat menggoda kemudian untuk menyimpulkan bahwa kedua metrik secara fungsional setara sehingga pilihan di antara keduanya adalah arbitrer, tetapi tidak terlalu cepat! Masalahnya muncul ketika mengambil skor rata-rata di atas set kesimpulan . Kemudian perbedaan muncul ketika mengukur seberapa buruk klasifikasi B daripada A untuk kasus apa pun.

Secara umum, metrik IoU cenderung untuk menghukum satu contoh klasifikasi buruk lebih dari skor F secara kuantitatif bahkan ketika mereka berdua dapat sepakat bahwa contoh yang satu ini buruk. Demikian pula dengan bagaimana L2 dapat menghukum kesalahan terbesar lebih dari L1, metrik IoU cenderung memiliki efek "kuadrat" pada kesalahan relatif terhadap skor F. Jadi skor F cenderung mengukur sesuatu yang lebih dekat dengan kinerja rata-rata, sedangkan skor IoU mengukur sesuatu yang lebih dekat dengan kinerja kasus terburuk.

Misalkan misalnya bahwa sebagian besar kesimpulan relatif lebih baik dengan classifier A daripada B, tetapi beberapa dari mereka secara signifikan lebih buruk menggunakan classifier A. Mungkin kemudian F metric mendukung classifier A sedangkan metrik IoU lebih menyukai penggolong B.

Yang pasti, kedua metrik ini jauh lebih mirip daripada keduanya berbeda. Tetapi keduanya menderita kerugian lain dari sudut pandang mengambil rata-rata skor ini dalam banyak kesimpulan: mereka berdua melebih-lebihkan pentingnya set dengan set dasar kebenaran positif yang sedikit atau tidak sama sekali. Dalam contoh umum segmentasi gambar, jika gambar hanya memiliki satu piksel dari beberapa kelas yang dapat dideteksi, dan classifier mendeteksi piksel tersebut dan satu piksel lainnya, skor F-nya adalah 2/3 rendah dan IoU lebih buruk lagi pada 1 / 2. Kesalahan sepele seperti ini dapat secara serius mendominasi skor rata-rata yang diambil alih serangkaian gambar. Singkatnya, bobot setiap kesalahan piksel berbanding terbalik dengan ukuran set yang dipilih / relevan daripada memperlakukannya secara merata.

Ada metrik yang jauh lebih sederhana yang menghindari masalah ini. Cukup gunakan kesalahan total: FN + FP (mis. 5% piksel gambar salah dikategorikan). Dalam kasus di mana satu lebih penting daripada yang lain, rata-rata tertimbang dapat digunakan: FP + FN. $c_0$ $c_1$

— Willem
sumber

willem, saya tidak bisa meminta jawaban yang lebih baik. terima kasih banyak telah meluangkan waktu.

— pietz

Saya mencoba pendekatan kesalahan total Anda dan hanya ingin menambahkan bahwa itu tidak berfungsi dengan baik dengan ketidakseimbangan konstan antara positif dan negatif. Bayangkan seluruh set data gambar di mana hanya satu pixel merupakan segmentasi ground truth. Jaringan saraf mungkin belajar dengan cukup cepat bahwa prediksi kosong selalu akurat 99,9% menggunakan kesalahan total. Dengan menggunakan IoU atau DSC kami menekan jaringan untuk menemukan segmentasi karena alasan yang sama seperti yang Anda sebutkan di atas. Jadi, pada akhirnya itu sangat masalah tergantung.

— pietz

Dapatkah seseorang membantu saya mendamaikan dua pernyataan berikut ?: 1:

"That is to say that if classifier A is better than B under one metric, it is also better than classifier B under the other metric."

dan 2:"It may be the case then that the F metric favors classifier A while the IoU metric favors classifier B."

— Matt Kleinsmith

Yang pertama mengacu pada skor inferensi tunggal, dan yang terakhir mengacu pada skor rata-rata di atas set inferensi (misalnya serangkaian gambar).

— willem