Saya pikir Anda pasti harus melihat ke metrik lebih dari sekadar AUC dan akurasi.
Akurasi (bersama-sama dengan sensitivitas dan spesifisitas) adalah metrik yang sangat sederhana namun bias yang memaksa Anda untuk melihat hasil prediksi absolut dan tidak terbuka untuk pernyataan probabilitas kelas atau peringkat. Ini juga tidak memperhitungkan populasi yang mengundang salah tafsir sebagai model yang memberikan keakuratan 95% pada populasi dengan peluang 95% untuk menjadi benar secara acak bukanlah model yang baik, walaupun akurasinya tinggi.
AUC adalah metrik yang baik untuk menyatakan akurasi model yang tidak tergantung pada probabilitas kelas populasi. Namun, itu tidak akan memberi tahu Anda apa pun tentang seberapa baik estimasi probabilitas yang sebenarnya. Anda bisa mendapatkan AUC tinggi tetapi masih memiliki estimasi probabilitas yang sangat miring. Metrik ini lebih membedakan daripada keakuratan dan pasti akan memberi Anda model yang lebih baik bila digunakan bersama dengan beberapa aturan penilaian yang tepat, misalnya skor Brier seperti yang disebutkan di pos lain.
Anda bisa mendapatkan bukti yang lebih formal di sini, meskipun makalah ini cukup teoretis: AUC: Ukuran yang Konsisten Secara Statistik dan Lebih Diskriminasi daripada Akurasi
Namun ada banyak metrik yang baik tersedia.
Fungsi Kehilangan untuk Estimasi Probabilitas Kelas Binary dan Klasifikasi: Struktur dan Aplikasi adalah makalah yang baik menyelidiki aturan penilaian yang tepat seperti skor Brier.
Makalah lain yang menarik dengan metrik untuk pernyataan kinerja model adalah Evaluasi: dari ketepatan, penarikan dan pengukuran-F hingga ROC, informasi, ketajaman & korelasi yang menggunakan metrik kinerja baik lainnya seperti informasi.
Untuk meringkas saya akan merekomendasikan melihat skor AUC / Gini dan Brier untuk menyatakan Anda model kinerja, tetapi tergantung pada tujuan dengan model Anda metrik lain mungkin cocok dengan masalah Anda lebih baik.