Apa itu F1 Optimal Threshold? Bagaimana cara menghitungnya?


13

Saya telah menggunakan fungsi h2o.glm () di R yang memberikan tabel kontingensi dalam hasil bersama dengan statistik lainnya. Tabel kontingensi dipimpin " Palang Tab berdasarkan Ambang Batas Optimal F1 "

Wikipedia mendefinisikan Skor F1 atau Skor F sebagai rata-rata harmonis dari presisi dan daya ingat. Tapi bukankah Precision dan Recall ditemukan hanya ketika hasil nilai prediksi regresi logistik (misalnya) ditransformasikan menjadi biner menggunakan cutoff.

Sekarang dengan cutoff saya ingat, apa hubungan antara Skor F1 dan Optimal Threshold. Bagaimana cara menghitung ambang optimal? Bagaimana cara menghitung ambang optimal F1?

Maaf jika saya melewatkan sesuatu, saya baru dalam statistik di sini.

Jawaban:


22

Saya benar-benar menulis makalah pertama saya di mesin belajar tentang topik ini. Di dalamnya, kami mengidentifikasi bahwa ketika classifier Anda mengeluarkan probabilitas yang dikalibrasi (sebagaimana seharusnya untuk regresi logistik) ambang optimal adalah sekitar 1/2 skor F1 yang dicapai. Ini memberi Anda beberapa intuisi. Ambang batas optimal tidak akan pernah lebih dari 0,5. Jika F1 Anda adalah 0,5 dan ambangnya 0,5, maka Anda harus berharap untuk meningkatkan F1 dengan menurunkan ambang tersebut. Di sisi lain, jika F1 adalah 0,5 dan ambangnya adalah 0,1, Anda mungkin harus meningkatkan ambang untuk meningkatkan F1.

Makalah dengan semua detail dan diskusi tentang mengapa F1 mungkin atau mungkin bukan ukuran yang baik untuk dioptimalkan (dalam kasus tunggal dan multilabel) dapat ditemukan di sini:

https://arxiv.org/abs/1402.1892

Maaf butuh 9 bulan untuk posting ini sampai saya perhatikan. Semoga Anda masih menemukan informasi yang bermanfaat!


1
Bisakah F1 menjadi> 1? Jika Anda memiliki 90% A, & 10% ~ A, saya akan berpikir Anda ingin ambang> .5.
gung - Reinstate Monica

1
Hai @ung. Tidak, menurut definisi F1 = 2 * p * r / (p + r) dan, seperti semua ukuran F-beta, memiliki rentang [0,1]. Ketidakseimbangan kelas tidak mengubah kisaran skor F1. Untuk beberapa aplikasi, Anda mungkin memang menginginkan prediksi yang dibuat dengan ambang batas lebih tinggi dari 0,5. Secara khusus, ini akan terjadi setiap kali Anda berpikir positif palsu lebih buruk daripada negatif palsu. Tetapi ambang seperti itu tidak akan mengoptimalkan skor F1. Untuk memahami alasannya, skor F1 dikembangkan dalam konteks pencarian informasi. Dalam pengaturan ini, kelas positif jarang dan biasanya positif palsu tidak semahal negatif palsu.
Zachary Chase Lipton

@ZacharyChaseLipton Asumsikan saya memiliki dataset split menjadi train / val / test. Untuk classifier yang menghasilkan probabilitas saya akan memilih ambang F1 optimal pada set validasi dengan memeriksa ambang yang menghasilkan F1 terbaik. Ini masuk akal karena memilih ambang tampaknya mirip dengan memilih model terbaik. Apakah itu hal yang benar untuk dilakukan?
pir

Selain itu, anggap saya memiliki classifier yang tidak menghasilkan probabilitas (seperti SVM). Bagaimana Anda mengoptimalkan F1 pada set validasi itu?
pir

Saya telah membuatnya menjadi pertanyaan: stats.stackexchange.com/questions/283931/…
pir
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.