Untuk menghasilkan kurva ROC (= Kurva Karakteristik Operasi Penerima):
Asumsikan kita memiliki probabilistik, klasifikasi biner seperti regresi logistik. Sebelum menyajikan kurva ROC, konsep matriks kebingungan harus dipahami. Saat kami membuat prediksi biner, mungkin ada 4 jenis kesalahan:
- Kami memperkirakan 0 sementara kami harus memiliki kelas sebenarnya 0: ini disebut True Negative , yaitu kami benar memprediksi bahwa kelas negatif (0). Misalnya, antivirus tidak mendeteksi file yang tidak berbahaya sebagai virus.
- Kami memperkirakan 0 sementara kami seharusnya memiliki kelas sebenarnya 1: ini disebut a False Negative , yaitu kami salah memprediksi bahwa kelas tersebut negatif (0). Misalnya, antivirus gagal mendeteksi virus.
- Kami memperkirakan 1 sementara kami seharusnya memiliki kelas sebenarnya 0: ini disebut a False Positive , yaitu kami salah memprediksi bahwa kelas tersebut positif (1). Misalnya, antivirus menganggap file tidak berbahaya sebagai virus.
- Kami memperkirakan 1 sementara kami seharusnya memiliki kelas sebenarnya 1: ini disebut True Positive , yaitu kami benar memprediksi bahwa kelas positif (1). Misalnya, antivirus mendeteksi virus dengan benar.
Untuk mendapatkan matriks kebingungan, kita memeriksa semua prediksi yang dibuat oleh model, dan menghitung berapa kali masing-masing dari keempat jenis kesalahan terjadi:
Dalam contoh ini dari matriks kebingungan, di antara 50 titik data yang diklasifikasikan, 45 diklasifikasikan dengan benar dan 5 diklasifikasi salah.
Karena untuk membandingkan dua model yang berbeda, seringkali lebih mudah untuk memiliki satu metrik daripada beberapa yang lain, kami menghitung dua metrik dari matriks kebingungan, yang nantinya akan kami gabungkan menjadi satu:
- TPTP+ FN . Secara intuitif metrik ini sesuai dengan proporsi poin data positif yang secara tepat dianggap sebagai positif, sehubungan dengan semua poin data positif. Dengan kata lain, semakin tinggi TPR, semakin sedikit poin data positif yang akan kami lewatkan.
- FPFP+ TN . Secara intuitif metrik ini sesuai dengan proporsi titik data negatif yang keliru dianggap positif, sehubungan dengan semua titik data negatif. Dengan kata lain, semakin tinggi FPR, semakin banyak poin data negatif yang akan kami klasifikasi salah.
0,00 ; 0,01 , 0,02 , ... , 1,00
Dalam gambar ini, area biru sesuai dengan Area Di Bawah kurva Receiver Operating Characteristic (AUROC). Garis putus-putus dalam diagonal kami menyajikan kurva ROC dari prediktor acak: ia memiliki AUROC 0,5. Prediktor acak biasanya digunakan sebagai dasar untuk melihat apakah model itu berguna.
Jika Anda ingin mendapatkan pengalaman langsung: