Pertanyaan yang sangat bagus, dan satu yang saya temukan bahwa kebanyakan orang tidak benar-benar mengerti pada tingkat intuitif. AUC
sebenarnya sering lebih disukai daripada akurasi untuk klasifikasi biner karena sejumlah alasan berbeda. Pertama-tama, mari kita bicara tentang apa tepatnya AUC
. Sejujurnya, karena menjadi salah satu metrik kemanjuran yang paling banyak digunakan, sangat mengherankan untuk mengetahui secara tepat cara AUC
kerjanya.
AUC
singkatan Area Under the Curve
, kurva mana yang Anda tanyakan? Nah, itu akan menjadi ROC
kurva. ROC
singkatan dari Receiver Operating Characteristic , yang sebenarnya sedikit tidak intuitif. Tujuan implisitnya AUC
adalah untuk menghadapi situasi di mana Anda memiliki distribusi sampel yang sangat miring, dan tidak ingin mengenakan pakaian berlebih ke satu kelas.
Contoh yang bagus adalah dalam deteksi spam. Secara umum, dataset spam sangat bias terhadap ham, atau bukan-spam. Jika kumpulan data Anda adalah ham 90%, Anda bisa mendapatkan akurasi yang sangat bagus dengan hanya mengatakan bahwa setiap email adalah ham, yang jelas merupakan sesuatu yang menunjukkan klasifikasi yang tidak ideal. Mari kita mulai dengan beberapa metrik yang sedikit lebih berguna bagi kita, khususnya tingkat positif sebenarnya ( TPR
) dan tingkat positif palsu ( FPR
):
Sekarang dalam grafik ini, TPR
secara khusus rasio benar positif untuk semua positif, dan FPR
rasio positif palsu untuk semua negatif. (Perlu diingat, ini hanya untuk klasifikasi biner.) Pada grafik seperti ini, harus cukup mudah untuk mengetahui bahwa prediksi semua 0 atau semua 1 akan menghasilkan titik (0,0)
dan (1,1)
masing - masing. Jika Anda menggambar garis melalui garis-garis ini, Anda akan mendapatkan sesuatu seperti ini:
Yang pada dasarnya terlihat seperti garis diagonal (itu), dan dengan beberapa geometri mudah, Anda dapat melihat bahwa AUC
model seperti itu akan menjadi 0.5
(tinggi dan basis keduanya 1). Demikian pula, jika Anda memprediksi bermacam-macam acak 0 dan 1, katakanlah 90% 1, Anda bisa mendapatkan poin (0.9, 0.9)
, yang lagi-lagi jatuh di sepanjang garis diagonal itu.
Sekarang sampai pada bagian yang menarik. Bagaimana jika kita tidak hanya memprediksi 0 dan 1? Bagaimana jika sebaliknya, kami ingin mengatakan bahwa, secara teoritis kami akan menetapkan batas, di mana setiap hasil adalah 1, dan di bawah ini setiap hasil adalah 0. Ini berarti bahwa pada ekstrem Anda mendapatkan situasi asli di mana Anda memiliki semua 0 dan semua 1 (pada cutoff masing-masing 0 dan 1), tetapi juga serangkaian negara perantara yang termasuk dalam 1x1
grafik yang berisi grafik Anda ROC
. Dalam praktiknya Anda mendapatkan sesuatu seperti ini:
Jadi pada dasarnya, apa yang sebenarnya Anda dapatkan ketika Anda melakukan AUC
akurasi berlebih adalah sesuatu yang akan sangat mencegah orang untuk mencari model yang representatif, tetapi tidak diskriminatif, karena ini hanya akan benar-benar memilih model yang mencapai tingkat positif palsu dan positif yang benar. secara signifikan di atas peluang acak, yang tidak dijamin untuk keakuratan.