Mengapa jumlah Precision dan Recall bukan ukuran yang layak?

12

Apa cara terbaik untuk menjelaskan mengapa adalah bukan ukuran yang baik, katakanlah, dibandingkan dengan F1? $\text{Precision} + \text{Recall}$

precision-recall

— matt
sumber

Apa artinya itu? Bagaimana Anda menafsirkannya? Apa yang sebenarnya akan Anda katakan?

— Matthew Drury

1

Anda harus mengubah judul dengan mengganti "Precision + Recall" dengan "jumlah Precision and Recall" untuk membuatnya lebih jelas apa yang Anda inginkan.

— g3o2

@ g3o2 kita berbicara tata bahasa di sini, atau saya kehilangan sesuatu yang lebih besar?

— matt

Tidak juga, hanya mencatat bahwa itu juga dapat dibaca Precision & Recall, khususnya saat membaca judul saja.

— g3o2

18

Bukan berarti adalah ukuran yang buruk per se, hanya saja, sendiri, angka yang dihasilkan tidak mewakili sesuatu yang berarti. Anda berada di jalur yang benar ... apa yang kami cari adalah gabungan, rata-rata dari dua ukuran kinerja karena kami tidak ingin harus memilih di antara mereka. $\text{Precision} + \text{Recall}$

Ingat bahwa ketepatan dan daya ingat didefinisikan sebagai:

Precision = \frac{True Positive}{Predicted Positive}

$\text{Precision} = \frac{\text{True Positive}}{\text{Predicted Positive}}$

Recall = \frac{True Positive}{Actual Positive}

$\text{Recall} = \frac{\text{True Positive}}{\text{Actual Positive}}$

Karena mereka berdua memiliki penyebut yang berbeda, menambahkannya bersama-sama menghasilkan sesuatu seperti ini: ... yang tidak terlalu berguna.

\frac{True Positive (Predicted Positive + Actual Positive)}{Predicted Positive \times Actual Positive}

$\frac{\text{True Positive}\left(\text{Predicted Positive}+\text{Actual Positive}\right)}{\text{Predicted Positive}\times \text{Actual Positive}}$

Mari kita kembali menambahkannya bersama-sama, dan membuat tweak: kalikan dengan sehingga mereka tetap dalam skala yang benar, . Ini mengambil rata-rata dari mereka. $\frac{1}{2}$ $[0-1]$

\frac{1}{2} \times (\frac{True Positive}{Predicted Positive} + \frac{True Positive}{Actual Positive})

$\frac{1}{2} \times \left( \frac{\text{True Positive}}{\text{Predicted Positive}} + \frac{\text{True Positive}}{\text{Actual Positive}} \right)$

Jadi, kami memiliki dua kuantitas, yang memiliki pembilang yang sama, tetapi penyebut yang berbeda dan kami ingin mengambil rata-rata dari mereka. Apa yang kita lakukan? Kita bisa membalikkannya, mengambil kebalikannya. Lalu Anda bisa menambahkannya bersama. Jadi mereka "sisi kanan atas", Anda mengambil kebalikannya lagi.

Proses pembalikan ini, dan kemudian pembalikan lagi mengubah rata-rata "biasa" menjadi rata-rata harmonis. Kebetulan bahwa rata-rata harmonik dari presisi dan recall adalah statistik F1. Rata-rata harmonik umumnya digunakan sebagai pengganti rata-rata aritmatika standar ketika berhadapan dengan kurs, seperti yang kita lakukan di sini.

Pada akhirnya, statistik F1 hanyalah rata-rata presisi dan daya ingat, dan Anda menggunakannya karena Anda tidak ingin memilih satu atau yang lain untuk mengevaluasi kinerja model.

— David Ciani
sumber

2

Terima kasih banyak karena telah mengembangkan rata-rata harmonik dari rata-rata aljabar! tetapi apa yang mungkin tidak begitu kuat dengan saya, adalah bagian di mana Anda mengatakan "yang tidak terlalu berguna". Dalam nada itu saya sudah berkomentar di bawah pada dua jawaban lainnya sekarang. Kalau-kalau Anda akan mengambil satu langkah lebih jauh .. Misalnya bayangkan saya ingin memilih classifier terbaik di antara sekelompok classifier yang diuji pada dataset yang sama.

— matt

@ Matt, menggunakan ukuran gabungan apa pun akan membawa pilihan model Anda ke titik tertentu tetapi tidak melampaui. Dua model yang memiliki nilai F1 yang sama dapat menunjukkan nilai Recall dan Precision yang benar-benar berlawanan. Karena itu, untuk F1 yang sama, Anda harus memilih antara Panggil Kembali dan Presisi.

— g3o2

4

Jawaban singkatnya adalah: Anda tidak akan mengharapkan penjumlahan dari dua persentase yang memiliki dua penyebut yang berbeda memiliki makna tertentu. Karenanya, pendekatan untuk mengambil ukuran rata-rata seperti F1, F2 atau F0.5. Yang terakhir mempertahankan setidaknya properti persentase. Bagaimana dengan artinya?

Keindahan Precision dan Recall sebagai ukuran terpisah adalah kemudahan interpretasinya dan fakta bahwa mereka dapat dengan mudah dihadapkan dengan tujuan bisnis model. Presisi mengukur persentase true positiveskeluar dari kasing yang diklasifikasikan sebagai positivemodel. Ingat mengukur persentase yang true positivesditemukan oleh model dari semua truekasus. Untuk banyak masalah, Anda harus memilih antara mengoptimalkan Precision atau Recall.

Setiap ukuran rata-rata kehilangan interpretasi di atas dan intinya adalah ukuran yang paling Anda sukai. F1 artinya Anda tidak tahu apakah Anda lebih suka Panggil Kembali atau Presisi, atau Anda memasang bobot yang sama untuk masing-masing. Jika Anda menganggap Recall lebih penting daripada Precision, maka Anda juga harus mengalokasikan bobot yang lebih tinggi untuk itu dalam perhitungan rata-rata (misalnya F2), dan sebaliknya (misalnya F0.5).

— g3o2
sumber

3

Menambahkan keduanya adalah ukuran yang buruk. Anda akan mendapatkan skor minimal 1 jika Anda menandai semuanya sebagai positif, karena itu adalah penarikan 100% menurut definisi. Dan Anda akan mendapatkan sedikit ketepatan presisi di atasnya. Rerata geometris yang digunakan dalam F1 menekankan pada tautan lemah, karena ini adalah multiplikatif; Anda harus setidaknya melakukan apa-apa dengan presisi dan ingat untuk mendapatkan skor F1 yang layak.

— Ben Ogorek
sumber

Sebenarnya, ini adalah penekanan yang tepat dari tautan lemah, yang saya anggap berlebihan ketika Precision dan Recall keduanya masuk akal daripada tegang. Ketika keduanya tidak tegang, saya tidak yakin saya melihat nilai tambah dari metrik yang menekankan kesamaan di antara mereka, atau memberikan hukuman yang berbeda dengan ukuran perbedaan mereka. Properti persis ini sebagian memotivasi pertanyaan awal saya di sini.

— matt

Kedengarannya seperti pekerjaan ekstra bagiku. Jika Anda menghargai persentase poin dari penarikan sebanyak satu presisi, maka saya kira ukuran Anda adalah yang akan digunakan. Tapi saya tidak bisa membayangkan Anda akan melakukannya. Ingat mungkin akan mendominasi, bahkan jika Anda mengurangi rentang. Anda dapat mengukur recall menjadi apel-ke-apel dengan presisi, tetapi itu lagi-lagi lebih berfungsi dan membuat interpretasi menjadi kurang jelas.

— Ben Ogorek

1

Tidak yakin mengapa menganggap recall harus mendominasi (?) Tetapi penskalaan recall menjadi apel-ke-apel dengan presisi mungkin merupakan diskusi terkait yang menarik di sini atau di tempat lain - sebuah pointer ke arah yang benar mungkin menyenangkan untuk dimiliki :) dan sebaliknya terima kasih lagi

— matt

3

Skor F1 sangat berharga dalam kasus probabilitas asimetris yang parah.

Pertimbangkan contoh berikut: kami menguji penyakit yang langka namun berbahaya. Mari kita asumsikan bahwa di kota 1.000.000 orang hanya 100 yang terinfeksi.

Tes A mendeteksi semua 100 positif ini. Namun, itu juga memiliki tingkat kesalahan positif 50%: itu keliru menunjukkan 500.000 orang sakit.

Sementara itu, tes B melewatkan 10% dari yang terinfeksi, tetapi hanya memberikan 1.000 positif palsu (0,1% false positive rate)

Mari kita hitung skornya. Untuk tes A, presisi akan efektif 0; recall akan tepat 1. Untuk tes B, presisi masih akan agak kecil, sekitar 0,01. Ingat akan sama dengan 0,9.

Jika kita secara naif menjumlahkan atau mengambil rata-rata aritmatika dari presisi dan daya ingat, ini akan memberikan 1 (0,5) untuk pengujian A dan 0,91 (0,455) untuk pengujian B. Jadi, uji A akan tampak sedikit lebih baik.

Namun, jika kita melihat dari perspektif praktis, tes A tidak ada artinya: jika seseorang dinyatakan positif, peluangnya untuk benar-benar sakit adalah 1 banding 50.000! Tes B memiliki arti yang lebih praktis: Anda dapat membawa 1.100 orang ke rumah sakit dan mengamati mereka dengan cermat. Ini secara akurat tercermin oleh skor F1: untuk tes A akan mendekati 0,0002, untuk tes B: (0,01 * 0,9) / (0,01 + 0,9) = 0,0098, yang masih agak miskin, tetapi sekitar 50 kali lebih baik.

Kesesuaian antara nilai skor dan signifikansi praktis inilah yang membuat skor F1 berharga.

— imiltemp
sumber

Terima kasih. Mungkin saya belum cukup membenamkan diri dalam kasus ini, tetapi apakah penjelasan ini tidak bergantung pada keuntungan pragmatis dari mengalokasikan sumber daya ke "positif" dalam domain kehidupan nyata di mana mendeteksi satu hasil (positif) adalah tujuannya? ini tidak selalu terjadi, bahwa tujuannya mendeteksi satu hasil, bukan? kadang-kadang Anda hanya ingin tahu apakah itu apel atau pasangan, dan kedua jenis kesalahan memiliki biaya dunia nyata praktis yang sama.

— matt

Di atas segalanya, apa yang saya gagal lihat adalah bagaimana sifat menjadi "lebih baik" ini berskala pada kasus-kasus di mana perbedaan (mutlak) antara ketepatan dan daya ingat kurang patologis. Mungkin intuisi secara inheren ada di sana, tetapi saya belum ada di sana ...

— matt

1

Secara umum, memaksimalkan mean geometrik menekankan nilai yang sama. Misalnya, ambil dua model: yang pertama memiliki (presisi, recall) = (0,8, 0,8) dan yang kedua memiliki (presisi, recall) = (0,6, 1,0). Menggunakan mean aljabar, kedua model akan setara. Menggunakan mean geometrik, model pertama lebih baik karena tidak menukar presisi untuk recall.

— roundsquare
sumber

1

Terima kasih banyak. Namun, secara praktis, saya gagal melihat preferensi yang berlaku universal antara misalnya (0,8, 0,8) dan (0,7, 0,9). Mungkin Anda telah mengisyaratkan sesuatu yang lebih dalam dalam "menjual presisi untuk mengingat" - yang belum saya ambil sendiri. Bagi saya secara aljabar rata-rata dua jenis kesalahan, cukup berikan rata-rata yang paling sederhana, tanpa ada bias terhadap kesamaan. Misalnya saya mungkin menggunakan penjumlahan sederhana Precision dan Recall untuk mencari yang mana dari dua pengklasifikasi memberi saya lebih sedikit kesalahan.

— matt

Kita bisa mengambil ini secara ekstrim. Katakanlah Anda memiliki satu sistem yang memiliki (presisi, penarikan) = (0,6, 0,6). Itu berarti bahwa ketika dikatakan "ya" benar 60% dari waktu dan benar menangkap 60% dari peristiwa "ya". Sekarang mari kita bandingkan ini dengan sistem yang memiliki (0.3, 1). Ini memiliki arti aljabar yang lebih baik, tetapi apa yang dilakukannya? Hal ini menangkap semua "ya" peristiwa, tetapi juga yang mengatakan "ya" salah seorang banyak . Apakah itu bagus? Apakah itu buruk? Itu tergantung pada mengapa Anda membangun sistem. Tindakan apa yang akan Anda ambil ketika Anda melihat prediksi "ya"? Apa konsekuensi dari melewatkan acara "ya"?

— roundsquare

1

Tak satu pun dari langkah-langkah ini adalah aturan penilaian akurasi yang tepat

— Frank Harrell

@roundsquare terima kasih banyak, tetapi untuk kasus-kasus non-patologis - di mana keduanya tidak dekat 0 dan 1 - Saya mungkin perlu bantuan melihat manfaat dari menekankan kesamaan antara keduanya, pada ukuran akhir!

— matt

@ FrankHarrell terima kasih telah menunjuk "gajah di kamar"

— matt