Anda berada di jalur yang benar.
Jadi beberapa hal langsung terjadi. Dari definisi dua metrik, kita memiliki bahwa skor IoU dan F selalu dalam faktor 2 satu sama lain:
dan juga bahwa mereka bertemu pada ekstrem satu dan nol dalam kondisi yang Anda harapkan (pasangan sempurna dan benar-benar terpisah).
F/ 2≤Io U≤ F
Perhatikan juga bahwa rasio di antara keduanya dapat dikaitkan secara eksplisit dengan IoU:
sehingga rasio mendekati 1/2 karena kedua metrik mendekati nol.
sayao U/ F= 1 / 2 + Io U/ 2
Tapi ada pernyataan yang lebih kuat yang bisa dibuat untuk aplikasi klasifikasi a la machine. Untuk "kebenaran dasar" tetap apa pun, kedua metrik selalu berkorelasi positif. Artinya, jika classifier A lebih baik daripada B di bawah satu metrik, itu juga lebih baik daripada classifier B di bawah metrik lainnya.
Sangat menggoda kemudian untuk menyimpulkan bahwa kedua metrik secara fungsional setara sehingga pilihan di antara keduanya adalah arbitrer, tetapi tidak terlalu cepat! Masalahnya muncul ketika mengambil skor rata-rata di atas set kesimpulan . Kemudian perbedaan muncul ketika mengukur seberapa buruk klasifikasi B daripada A untuk kasus apa pun.
Secara umum, metrik IoU cenderung untuk menghukum satu contoh klasifikasi buruk lebih dari skor F secara kuantitatif bahkan ketika mereka berdua dapat sepakat bahwa contoh yang satu ini buruk. Demikian pula dengan bagaimana L2 dapat menghukum kesalahan terbesar lebih dari L1, metrik IoU cenderung memiliki efek "kuadrat" pada kesalahan relatif terhadap skor F. Jadi skor F cenderung mengukur sesuatu yang lebih dekat dengan kinerja rata-rata, sedangkan skor IoU mengukur sesuatu yang lebih dekat dengan kinerja kasus terburuk.
Misalkan misalnya bahwa sebagian besar kesimpulan relatif lebih baik dengan classifier A daripada B, tetapi beberapa dari mereka secara signifikan lebih buruk menggunakan classifier A. Mungkin kemudian F metric mendukung classifier A sedangkan metrik IoU lebih menyukai penggolong B.
Yang pasti, kedua metrik ini jauh lebih mirip daripada keduanya berbeda. Tetapi keduanya menderita kerugian lain dari sudut pandang mengambil rata-rata skor ini dalam banyak kesimpulan: mereka berdua melebih-lebihkan pentingnya set dengan set dasar kebenaran positif yang sedikit atau tidak sama sekali. Dalam contoh umum segmentasi gambar, jika gambar hanya memiliki satu piksel dari beberapa kelas yang dapat dideteksi, dan classifier mendeteksi piksel tersebut dan satu piksel lainnya, skor F-nya adalah 2/3 rendah dan IoU lebih buruk lagi pada 1 / 2. Kesalahan sepele seperti ini dapat secara serius mendominasi skor rata-rata yang diambil alih serangkaian gambar. Singkatnya, bobot setiap kesalahan piksel berbanding terbalik dengan ukuran set yang dipilih / relevan daripada memperlakukannya secara merata.
Ada metrik yang jauh lebih sederhana yang menghindari masalah ini. Cukup gunakan kesalahan total: FN + FP (mis. 5% piksel gambar salah dikategorikan). Dalam kasus di mana satu lebih penting daripada yang lain, rata-rata tertimbang dapat digunakan: FP + FN.c 1c0c1