Ukuran kinerja classifier yang menggabungkan sensitivitas dan spesifisitas?

Saya memiliki data 2-kelas berlabel di mana saya melakukan klasifikasi menggunakan beberapa pengklasifikasi. Dan datasetnya seimbang. Ketika menilai kinerja pengklasifikasi, saya perlu mempertimbangkan seberapa akurat pengklasifikasi dalam menentukan tidak hanya positif sejati, tetapi juga negatif sebenarnya. Oleh karena itu, jika saya menggunakan akurasi, dan jika pengklasifikasi cenderung positif dan mengklasifikasikan semuanya sebagai positif, saya akan mendapatkan akurasi sekitar 50%, meskipun gagal mengklasifikasikan negatif yang sebenarnya. Properti ini diperluas hingga presisi dan mengingat karena mereka fokus hanya pada satu kelas, dan pada gilirannya ke skor F1. (Inilah yang saya pahami bahkan dari makalah ini misalnya " Melampaui Akurasi, F-score dan ROC: Keluarga Tindakan Diskriminan untuk Evaluasi Kinerja ").

Oleh karena itu, saya dapat menggunakan sensitivitas dan spesifisitas (TPR dan TNR) untuk melihat bagaimana classifier dilakukan untuk setiap kelas, di mana saya bertujuan untuk memaksimalkan nilai-nilai ini.

Pertanyaan saya adalah saya mencari ukuran yang menggabungkan kedua nilai ini menjadi satu ukuran yang berarti . Saya melihat langkah-langkah yang disediakan dalam makalah itu, tetapi ternyata tidak sepele. Dan berdasarkan pemahaman saya, saya bertanya-tanya mengapa kita tidak bisa menerapkan sesuatu seperti F-score, tetapi alih-alih menggunakan presisi dan daya ingat saya akan menggunakan sensitivitas dan spesifisitas? Jadi rumusnya adalah dan tujuan saya adalah memaksimalkan ukuran ini. Saya merasa sangat representatif. Apakah sudah ada formula serupa? Dan apakah ini masuk akal atau bahkan secara matematis terdengar?

my Performance Measure = \frac{2 * sensitivity * specificity}{sensitivity + specificity}

$\text{my Performance Measure} = \frac{2 * \text{sensitivity} * \text{specificity}}{\text{sensitivity} + \text{specificity}}$

— Kalaji
sumber

Jawaban:

Saya akan mengatakan bahwa mungkin tidak ada ukuran tertentu atau hanya satu yang harus Anda perhitungkan.

Terakhir kali ketika saya melakukan klasifikasi probabilistik saya memiliki paket R ROCR dan nilai biaya eksplisit untuk False Positive dan False Negatives.

Saya mempertimbangkan semua cutoff-point dari 0 hingga 1 dan menggunakan banyak ukuran seperti biaya yang diharapkan ketika memilih cutoff-point ini. Tentu saja saya sudah mengukur AUC untuk ukuran umum akurasi klasifikasi. Tetapi bagi saya ini bukan satu-satunya kemungkinan.

Nilai untuk kasus FP dan FN harus keluar dari model khusus Anda, mungkin ini disediakan oleh beberapa ahli materi pelajaran?

Misalnya dalam analisis churn pelanggan mungkin lebih mahal untuk menyimpulkan secara tidak benar bahwa pelanggan tidak churn tetapi juga bahwa akan mahal untuk memberikan pengurangan umum dalam harga untuk layanan tanpa akurasi untuk menargetkan ini ke grup yang benar.

-Analis

— Analis
sumber

Sebenarnya untuk kasus saya agak mirip. Karena kasus FP dan FN akan mahal dalam model saya. Saya akhirnya melakukan sesuatu yang mirip dengan apa yang Anda sarankan "menggunakan beberapa langkah". Saya menghitung F-score untuk setiap label kelas, dan untuk menilai model saya menggunakan kedua nilai ini bersama dengan beberapa fungsi biaya yang menggunakan presisi (untuk kedua kelas) untuk menghitung laba dan mengurangi darinya kerugian yang timbul dari kasus FP dan FN.

— Kalaji

Keakuratan klasifikasi, sensitivitas, spesifisitas, dan kombinasi sederhana semuanya adalah aturan penilaian yang tidak tepat. Artinya, mereka dioptimalkan oleh model palsu. Menggunakannya akan membuat Anda memilih fitur yang salah, memberikan bobot yang salah, dan membuat keputusan yang kurang optimal. Salah satu dari banyak cara keputusan yang suboptimal adalah kepercayaan salah yang Anda dapatkan ketika probabilitas diprediksi mendekati ambang batas yang tersirat oleh penggunaan langkah-langkah ini. Singkatnya, segala sesuatu yang salah tidak salah dengan langkah-langkah ini. Menggunakannya untuk membandingkan bahkan dua model yang cocok akan menyesatkan Anda.

— Frank Harrell
sumber

Saya setuju bahwa model apa pun yang dihasilkan adalah "model palsu" seperti yang Anda sebutkan. Tetapi saya masih membutuhkan ukuran untuk menilai kualitasnya, untuk memilih model pada akhirnya. Dengan asumsi bahwa fitur saya sudah dipilih (mencoba beberapa set data dengan set fitur yang berbeda), dan saya menggunakan validasi silang 5 kali lipat untuk menentukan apakah classifier saya overfitting data, "aturan penilaian" sederhana ini adalah yang paling banyak digunakan dalam literatur. Apa ukuran lain yang akan Anda sarankan? Sebagian besar tindakan bergantung pada kombinasi nilai-nilai ini termasuk LR +/-, ROC, dan AUC.

— Kalaji

R^{2}

$R^2$

Y

$Y$

Berdasarkan bacaan saya ini berlaku jika model saya menghasilkan probabilitas daripada nilai-nilai diskrit (yaitu probabilitas bahwa sebuah instance milik kelas 0 atau 1 bukannya menghasilkan 0 atau 1). Dan pada gilirannya, ini ada hubungannya dengan implementasi pengklasifikasi, misalnya itu berlaku untuk classifier Naive Bayes tetapi tidak untuk classifier 1-NN. Perhatikan bahwa saya tidak mengimplementasikan pengklasifikasi, saya menggunakan beberapa pengklasifikasi di Weka untuk menghasilkan model saya. Mungkin saya agak bingung di sini. Terima kasih.

— Kalaji

Jika metode yang Anda gunakan tidak menghasilkan probabilitas, saya sarankan mencari metode lain.

— Frank Harrell

Jika ada perbedaan yang dipahami dengan baik antara biaya presisi dan sensitivitas yang sebenarnya (tidak berlaku untuk pos asli), mengapa Anda menghindari menggunakannya? Apakah kesalahan lintas-entropi bias lebih disukai (misalnya, hukuman dari (1-c) * log (1-p) istilah digandakan)?

— Max Candocia