AUC tidak membandingkan kelas nyata vs diprediksi satu sama lain. Ini bukan melihat kelas yang diprediksi, tetapi skor prediksi atau probabilitas. Anda dapat melakukan prediksi kelas dengan menerapkan cutoff pada skor ini, katakanlah, setiap sampel yang mendapat skor di bawah 0,5 diklasifikasikan sebagai negatif. Tetapi ROC datang sebelum itu terjadi. Ini bekerja dengan probabilitas skor / kelas.
Dibutuhkan skor ini dan mengurutkan semua sampel sesuai dengan skor itu. Sekarang, setiap kali Anda menemukan sampel positif, kurva ROC membuat langkah maju (sepanjang sumbu y). Setiap kali Anda menemukan sampel negatif, Anda bergerak ke kanan (sepanjang sumbu x). Jika skor itu berbeda untuk kedua kelas, sampel positif didahulukan (biasanya). Itu berarti Anda membuat lebih banyak langkah daripada ke kanan. Lebih jauh ke bawah daftar sampel negatif akan datang, sehingga Anda bergerak ke kiri. Ketika Anda melalui seluruh daftar sampel yang Anda capai di koordinat (1,1) yang sesuai dengan 100% positif dan 100% sampel negatif.
Jika skor memisahkan positif dengan positif dari sampel negatif, Anda berpindah dari (x = 0, y = 0) ke (1,0) dan kemudian dari sana ke (1, 1). Jadi, area di bawah kurva adalah 1.
Jika skor Anda memiliki distribusi yang sama untuk sampel positif dan negatif, probabilitas untuk menemukan sampel positif atau negatif dalam daftar diurutkan adalah sama dan oleh karena itu probabilitas untuk bergerak ke atas atau ke kiri dalam kurva ROC adalah sama. Itulah sebabnya Anda bergerak sepanjang diagonal, karena pada dasarnya Anda bergerak ke atas dan ke kiri, dan ke atas dan ke kiri, dan seterusnya ... yang memberikan nilai AROC sekitar 0,5.
Dalam kasus dataset yang tidak seimbang, ukuran langkahnya berbeda. Jadi, Anda membuat langkah lebih kecil ke kiri (jika Anda memiliki lebih banyak sampel negatif). Itulah sebabnya skornya kurang lebih independen dari ketidakseimbangan.
Jadi dengan kurva ROC, Anda dapat memvisualisasikan bagaimana sampel Anda dipisahkan dan area di bawah kurva dapat menjadi metrik yang sangat baik untuk mengukur kinerja algoritma klasifikasi biner atau variabel apa pun yang dapat digunakan untuk memisahkan kelas.
Gambar tersebut menunjukkan distribusi yang sama dengan ukuran sampel yang berbeda. Area hitam menunjukkan di mana kurva ROC dari campuran acak dari sampel positif dan negatif akan diharapkan.