Saya memiliki data 2-kelas berlabel di mana saya melakukan klasifikasi menggunakan beberapa pengklasifikasi. Dan datasetnya seimbang. Ketika menilai kinerja pengklasifikasi, saya perlu mempertimbangkan seberapa akurat pengklasifikasi dalam menentukan tidak hanya positif sejati, tetapi juga negatif sebenarnya. Oleh karena itu, jika saya menggunakan akurasi, dan jika pengklasifikasi cenderung positif dan mengklasifikasikan semuanya sebagai positif, saya akan mendapatkan akurasi sekitar 50%, meskipun gagal mengklasifikasikan negatif yang sebenarnya. Properti ini diperluas hingga presisi dan mengingat karena mereka fokus hanya pada satu kelas, dan pada gilirannya ke skor F1. (Inilah yang saya pahami bahkan dari makalah ini misalnya " Melampaui Akurasi, F-score dan ROC: Keluarga Tindakan Diskriminan untuk Evaluasi Kinerja ").
Oleh karena itu, saya dapat menggunakan sensitivitas dan spesifisitas (TPR dan TNR) untuk melihat bagaimana classifier dilakukan untuk setiap kelas, di mana saya bertujuan untuk memaksimalkan nilai-nilai ini.
Pertanyaan saya adalah saya mencari ukuran yang menggabungkan kedua nilai ini menjadi satu ukuran yang berarti . Saya melihat langkah-langkah yang disediakan dalam makalah itu, tetapi ternyata tidak sepele. Dan berdasarkan pemahaman saya, saya bertanya-tanya mengapa kita tidak bisa menerapkan sesuatu seperti F-score, tetapi alih-alih menggunakan presisi dan daya ingat saya akan menggunakan sensitivitas dan spesifisitas? Jadi rumusnya adalah dan tujuan saya adalah memaksimalkan ukuran ini. Saya merasa sangat representatif. Apakah sudah ada formula serupa? Dan apakah ini masuk akal atau bahkan secara matematis terdengar?