Sementara dua ukuran statistik cenderung berkorelasi, mereka mengukur kualitas yang berbeda dari pengklasifikasi.
AUROC
Area di bawah kurva (AUC) sama dengan probabilitas bahwa classifier akan memberi peringkat instance positif yang dipilih secara acak lebih tinggi daripada contoh negatif yang dipilih secara acak. Ini mengukur keterampilan pengklasifikasi dalam menentukan peringkat serangkaian pola sesuai dengan tingkat di mana mereka termasuk dalam kelas positif, tetapi tanpa benar-benar menetapkan pola ke kelas.
Akurasi keseluruhan juga tergantung pada kemampuan classifier untuk menentukan peringkat pola, tetapi juga pada kemampuannya untuk memilih ambang batas dalam peringkat yang digunakan untuk menetapkan pola ke kelas positif jika di atas ambang batas dan ke kelas negatif jika di bawah.
Dengan demikian, pengklasifikasi dengan statistik AUROC yang lebih tinggi (semua hal dianggap sama) cenderung juga memiliki akurasi keseluruhan yang lebih tinggi karena peringkat pola (yang diukur oleh AUROC) bermanfaat bagi AUROC dan akurasi keseluruhan. Namun, jika satu classifier memberi peringkat pola dengan baik, tetapi memilih ambang batas dengan buruk, ia dapat memiliki AUROC tinggi tetapi akurasi keseluruhannya buruk.
Penggunaan Praktis
Dalam praktiknya, saya suka mengumpulkan akurasi keseluruhan, AUROC dan jika classifier memperkirakan kemungkinan keanggotaan kelas, cross-entropy atau informasi prediktif. Lalu saya memiliki metrik yang mengukur kemampuan mentahnya untuk melakukan klasifikasi keras (dengan asumsi kesalahan klasifikasi positif palsu dan negatif palsu negatif adalah sama dan frekuensi kelas dalam sampel sama dengan yang digunakan dalam operasional - asumsi besar!), metrik yang mengukur kemampuan menentukan peringkat pola dan metrik yang mengukur seberapa baik peringkat dikalibrasi sebagai suatu probabilitas.
Untuk banyak tugas, biaya kesalahan klasifikasi operasional tidak diketahui atau variabel, atau frekuensi kelas operasional berbeda dengan yang ada dalam sampel pelatihan atau variabel. Dalam hal itu, akurasi keseluruhan sering kali tidak berarti dan AUROC adalah indikator kinerja yang lebih baik dan idealnya kami menginginkan classifier yang menghasilkan probabilitas yang terkalibrasi dengan baik, sehingga kami dapat mengkompensasi masalah ini dalam penggunaan operasional. Pada dasarnya metrik mana yang penting tergantung pada masalah yang kami coba selesaikan.