Arti intuitif terdekat dari skor f1 sedang dipersepsikan sebagai rata-rata dari recall dan presisi. Mari kita bersihkan untuk Anda:
Dalam tugas klasifikasi, Anda mungkin berencana untuk membangun classifier dengan presisi tinggi DAN recall. Misalnya, sebuah classifier yang memberi tahu apakah seseorang jujur atau tidak.
Untuk ketepatan, Anda biasanya dapat mengetahui secara akurat berapa banyak orang jujur di luar sana dalam kelompok tertentu. Dalam hal ini, ketika memperhatikan presisi tinggi, Anda berasumsi bahwa Anda dapat salah mengklasifikasikan pembohong sebagai orang jujur tetapi tidak sering. Dengan kata lain, di sini Anda mencoba mengidentifikasi pembohong dari jujur sebagai satu kelompok.
Namun, untuk diingat, Anda akan benar-benar khawatir jika Anda berpikir orang pembohong jujur. Bagi Anda, ini akan menjadi kerugian besar dan kesalahan besar dan Anda tidak ingin melakukannya lagi. Juga, tidak apa-apa jika Anda mengklasifikasikan seseorang jujur sebagai pembohong, tetapi model Anda tidak boleh (atau sebagian besar tidak) mengklaim pembohong sebagai jujur. Dengan kata lain, di sini Anda berfokus pada kelas tertentu dan Anda berusaha untuk tidak membuat kesalahan tentang itu.
Sekarang, mari kita ambil kasus di mana Anda ingin model Anda (1) secara tepat mengidentifikasi jujur dari pembohong (presisi) (2) mengidentifikasi setiap orang dari kedua kelas (ingat). Yang berarti Anda akan memilih model yang akan berkinerja baik di kedua metrik.
Keputusan pemilihan model Anda kemudian akan mencoba mengevaluasi setiap model berdasarkan rata-rata dari dua metrik. F-Score adalah yang terbaik yang dapat menggambarkan ini. Mari kita lihat rumusnya:
Ingat: p = tp / (tp + fp)
Ingat: r = tp / (tp + fn)
F-score: fscore = 2 / (1 / r + 1 / p)
Seperti yang Anda lihat, semakin tinggi daya ingat DAN presisi, semakin tinggi skor-F.