Jawaban:
Ketika Anda melakukan regresi logistik, Anda diberi dua kelas yang diberi kode dan . Sekarang, Anda menghitung probabilitas yang memberikan beberapa varialbes yang jelas, seseorang yang termasuk dalam kelas yang diberi kode . Jika sekarang Anda memilih ambang probabilitas dan mengklasifikasikan semua individu dengan probabilitas lebih besar dari ambang ini sebagai kelas dan di bawah sebagai0 1 1 0, Anda dalam banyak kasus akan membuat kesalahan karena biasanya dua kelompok tidak dapat didiskriminasi dengan sempurna. Untuk ambang ini sekarang Anda dapat menghitung kesalahan dan apa yang disebut sensitivitas dan spesifisitas. Jika Anda melakukan ini untuk banyak ambang, Anda dapat membuat kurva ROC dengan memplot sensitivitas terhadap 1-Spesifisitas untuk banyak kemungkinan ambang. Area di bawah kurva berperan jika Anda ingin membandingkan metode berbeda yang mencoba membedakan antara dua kelas, misalnya analisis diskriminan atau model probit. Anda dapat membuat kurva ROC untuk semua model ini dan model dengan area tertinggi di bawah kurva dapat dilihat sebagai model terbaik.
Jika Anda perlu mendapatkan pemahaman yang lebih dalam, Anda juga dapat membaca jawaban dari pertanyaan lain tentang kurva ROC dengan mengklik di sini.
Model regresi logistik adalah metode estimasi probabilitas langsung. Klasifikasi seharusnya tidak memainkan peran dalam penggunaannya. Klasifikasi apa pun yang tidak didasarkan pada penilaian utilitas (fungsi kerugian / biaya) pada masing-masing subjek tidak sesuai kecuali dalam keadaan darurat yang sangat khusus. Kurva ROC tidak membantu di sini; tidak ada sensitivitas atau spesifisitas yang, seperti akurasi klasifikasi keseluruhan, adalah aturan penilaian akurasi yang tidak tepat yang dioptimalkan oleh model palsu tidak dilengkapi dengan estimasi kemungkinan maksimum.
Saya bukan penulis blog ini dan saya menemukan blog ini sangat membantu: http://fouryears.eu/2011/10/12/roc-area-under-the-curve-explained
Menerapkan penjelasan ini ke data Anda, contoh positif rata-rata memiliki sekitar 10% dari contoh negatif mendapat skor lebih tinggi dari itu.