Apa cara terbaik untuk menjelaskan mengapa adalah bukan ukuran yang baik, katakanlah, dibandingkan dengan F1?
Apa cara terbaik untuk menjelaskan mengapa adalah bukan ukuran yang baik, katakanlah, dibandingkan dengan F1?
Jawaban:
Bukan berarti adalah ukuran yang buruk per se, hanya saja, sendiri, angka yang dihasilkan tidak mewakili sesuatu yang berarti. Anda berada di jalur yang benar ... apa yang kami cari adalah gabungan, rata-rata dari dua ukuran kinerja karena kami tidak ingin harus memilih di antara mereka.
Ingat bahwa ketepatan dan daya ingat didefinisikan sebagai:
Recall=Benar Positif
Karena mereka berdua memiliki penyebut yang berbeda, menambahkannya bersama-sama menghasilkan sesuatu seperti ini: ... yang tidak terlalu berguna.
Mari kita kembali menambahkannya bersama-sama, dan membuat tweak: kalikan dengan sehingga mereka tetap dalam skala yang benar, . Ini mengambil rata-rata dari mereka. [0-1]
Jadi, kami memiliki dua kuantitas, yang memiliki pembilang yang sama, tetapi penyebut yang berbeda dan kami ingin mengambil rata-rata dari mereka. Apa yang kita lakukan? Kita bisa membalikkannya, mengambil kebalikannya. Lalu Anda bisa menambahkannya bersama. Jadi mereka "sisi kanan atas", Anda mengambil kebalikannya lagi.
Proses pembalikan ini, dan kemudian pembalikan lagi mengubah rata-rata "biasa" menjadi rata-rata harmonis. Kebetulan bahwa rata-rata harmonik dari presisi dan recall adalah statistik F1. Rata-rata harmonik umumnya digunakan sebagai pengganti rata-rata aritmatika standar ketika berhadapan dengan kurs, seperti yang kita lakukan di sini.
Pada akhirnya, statistik F1 hanyalah rata-rata presisi dan daya ingat, dan Anda menggunakannya karena Anda tidak ingin memilih satu atau yang lain untuk mengevaluasi kinerja model.
Jawaban singkatnya adalah: Anda tidak akan mengharapkan penjumlahan dari dua persentase yang memiliki dua penyebut yang berbeda memiliki makna tertentu. Karenanya, pendekatan untuk mengambil ukuran rata-rata seperti F1, F2 atau F0.5. Yang terakhir mempertahankan setidaknya properti persentase. Bagaimana dengan artinya?
Keindahan Precision dan Recall sebagai ukuran terpisah adalah kemudahan interpretasinya dan fakta bahwa mereka dapat dengan mudah dihadapkan dengan tujuan bisnis model. Presisi mengukur persentase true positives
keluar dari kasing yang diklasifikasikan sebagai positive
model. Ingat mengukur persentase yang true positives
ditemukan oleh model dari semua true
kasus. Untuk banyak masalah, Anda harus memilih antara mengoptimalkan Precision atau Recall.
Setiap ukuran rata-rata kehilangan interpretasi di atas dan intinya adalah ukuran yang paling Anda sukai. F1 artinya Anda tidak tahu apakah Anda lebih suka Panggil Kembali atau Presisi, atau Anda memasang bobot yang sama untuk masing-masing. Jika Anda menganggap Recall lebih penting daripada Precision, maka Anda juga harus mengalokasikan bobot yang lebih tinggi untuk itu dalam perhitungan rata-rata (misalnya F2), dan sebaliknya (misalnya F0.5).
Menambahkan keduanya adalah ukuran yang buruk. Anda akan mendapatkan skor minimal 1 jika Anda menandai semuanya sebagai positif, karena itu adalah penarikan 100% menurut definisi. Dan Anda akan mendapatkan sedikit ketepatan presisi di atasnya. Rerata geometris yang digunakan dalam F1 menekankan pada tautan lemah, karena ini adalah multiplikatif; Anda harus setidaknya melakukan apa-apa dengan presisi dan ingat untuk mendapatkan skor F1 yang layak.
Skor F1 sangat berharga dalam kasus probabilitas asimetris yang parah.
Pertimbangkan contoh berikut: kami menguji penyakit yang langka namun berbahaya. Mari kita asumsikan bahwa di kota 1.000.000 orang hanya 100 yang terinfeksi.
Tes A mendeteksi semua 100 positif ini. Namun, itu juga memiliki tingkat kesalahan positif 50%: itu keliru menunjukkan 500.000 orang sakit.
Sementara itu, tes B melewatkan 10% dari yang terinfeksi, tetapi hanya memberikan 1.000 positif palsu (0,1% false positive rate)
Mari kita hitung skornya. Untuk tes A, presisi akan efektif 0; recall akan tepat 1. Untuk tes B, presisi masih akan agak kecil, sekitar 0,01. Ingat akan sama dengan 0,9.
Jika kita secara naif menjumlahkan atau mengambil rata-rata aritmatika dari presisi dan daya ingat, ini akan memberikan 1 (0,5) untuk pengujian A dan 0,91 (0,455) untuk pengujian B. Jadi, uji A akan tampak sedikit lebih baik.
Namun, jika kita melihat dari perspektif praktis, tes A tidak ada artinya: jika seseorang dinyatakan positif, peluangnya untuk benar-benar sakit adalah 1 banding 50.000! Tes B memiliki arti yang lebih praktis: Anda dapat membawa 1.100 orang ke rumah sakit dan mengamati mereka dengan cermat. Ini secara akurat tercermin oleh skor F1: untuk tes A akan mendekati 0,0002, untuk tes B: (0,01 * 0,9) / (0,01 + 0,9) = 0,0098, yang masih agak miskin, tetapi sekitar 50 kali lebih baik.
Kesesuaian antara nilai skor dan signifikansi praktis inilah yang membuat skor F1 berharga.
Secara umum, memaksimalkan mean geometrik menekankan nilai yang sama. Misalnya, ambil dua model: yang pertama memiliki (presisi, recall) = (0,8, 0,8) dan yang kedua memiliki (presisi, recall) = (0,6, 1,0). Menggunakan mean aljabar, kedua model akan setara. Menggunakan mean geometrik, model pertama lebih baik karena tidak menukar presisi untuk recall.