AIC dan c-statistik mencoba menjawab pertanyaan yang berbeda. (Juga beberapa masalah dengan c-statistik telah diangkat dalam beberapa tahun terakhir, tapi saya akan mengesampingkannya)
Secara kasar:
- AIC memberitahu Anda seberapa baik model yang cocok Anda untuk spesifik biaya mis-klasifikasi.
- AUC memberi tahu Anda seberapa baik model Anda akan bekerja, rata-rata, di semua biaya kesalahan klasifikasi.
Ketika Anda menghitung AIC Anda memperlakukan logistik Anda memberikan prediksi katakanlah 0,9 menjadi prediksi dari 1 (yaitu lebih mungkin 1 dari 0), namun itu tidak perlu. Anda bisa mengambil skor logistik Anda dan mengatakan "apa pun di atas 0,95 adalah 1, semuanya di bawah adalah 0". Mengapa kamu melakukan ini? Nah ini akan memastikan bahwa Anda hanya memprediksi satu ketika Anda benar-benar sangat percaya diri. Nilai positif palsu Anda akan sangat rendah, tetapi negatif palsu Anda akan meroket. Dalam beberapa situasi ini bukan hal yang buruk - jika Anda akan menuduh seseorang melakukan penipuan, Anda mungkin ingin benar-benar yakin terlebih dahulu. Juga, jika sangat mahal untuk menindaklanjuti hasil positif, maka Anda tidak ingin terlalu banyak.
Inilah sebabnya mengapa ini berkaitan dengan biaya. Ada biaya ketika Anda mengklasifikasikan 1 sebagai 0 dan biaya ketika Anda mengklasifikasikan 0 sebagai 1. Biasanya (dengan asumsi Anda menggunakan pengaturan default), AIC untuk regresi logistik merujuk pada kasus khusus ketika kedua klasifikasi salah sama mahal. Artinya, regresi logistik memberi Anda jumlah keseluruhan prediksi yang benar terbaik, tanpa preferensi untuk positif atau negatif.
Kurva ROC digunakan karena ini memplot nilai positif benar terhadap false positif untuk menunjukkan bagaimana kinerja classifier jika Anda menggunakannya di bawah persyaratan biaya yang berbeda. Statistik-c muncul karena setiap kurva ROC yang terletak persis di atas yang lain jelas merupakan penggolong yang mendominasi. Oleh karena itu intuitif untuk mengukur area di bawah kurva sebagai ukuran seberapa baik pengklasifikasi secara keseluruhan.
Jadi pada dasarnya, jika Anda tahu biaya Anda saat memasang model, gunakan AIC (atau serupa). Jika Anda hanya membuat skor, tetapi tidak menentukan ambang diagnostik, maka pendekatan AUC diperlukan (dengan peringatan berikut tentang AUC itu sendiri).
Jadi apa yang salah dengan c-statistik / AUC / Gini?
Selama bertahun-tahun AUC adalah pendekatan standar, dan masih banyak digunakan, namun ada beberapa masalah dengan itu. Satu hal yang membuatnya sangat menarik adalah bahwa itu sesuai dengan tes Wilcox pada peringkat klasifikasi. Itu diukur probabilitas bahwa skor anggota yang dipilih secara acak dari satu kelas akan lebih tinggi daripada anggota yang dipilih secara acak dari kelas lain. Masalahnya adalah, itu hampir tidak pernah menjadi metrik yang berguna.
Masalah paling kritis dengan AUC dipublikasikan oleh David Hand beberapa tahun yang lalu. (Lihat referensi di bawah) Inti masalahnya adalah bahwa sementara AUC melakukan rata-rata atas semua biaya, karena sumbu x dari kurva ROC adalah False Positive Rate, bobot yang diberikannya pada rezim biaya yang berbeda bervariasi di antara pengklasifikasi. Jadi, jika Anda menghitung AUC pada dua regresi logitic yang berbeda itu tidak akan mengukur "hal yang sama" dalam kedua kasus. Ini berarti tidak masuk akal untuk membandingkan model berdasarkan AUC.
Hand mengusulkan perhitungan alternatif menggunakan pembobotan biaya tetap, dan menyebut ini ukuran H - ada paket dalam R yang disebut hmeasure
yang akan melakukan perhitungan ini, dan saya percaya AUC untuk perbandingan.
Beberapa referensi tentang masalah dengan AUC:
Kapan area di bawah kurva karakteristik operasi penerima ukuran yang tepat untuk kinerja classifier? DJ Hand, C. Anagnostopoulos Pattern Recognition Letters 34 (2013) 492–495
(Saya menemukan ini sebagai penjelasan yang sangat mudah diakses dan bermanfaat)