Saya memiliki 100.000 pengamatan (9 variabel indikator dummy) dengan 1000 positif. Regresi Logistik harus bekerja dengan baik dalam kasus ini tetapi probabilitas cutoff membingungkan saya.
Dalam literatur umum, kami memilih cutoff 50% untuk memprediksi 1 dan 0. Saya tidak bisa melakukan ini karena model saya memberikan nilai maksimum ~ 1%. Jadi ambang batas bisa di 0,007 atau di suatu tempat di sekitarnya.
Saya mengerti ROC
kurva dan bagaimana area di bawah kurva dapat membantu saya memilih antara dua model LR untuk dataset yang sama. Namun, ROC tidak membantu saya memilih probabilitas cutoff optimal yang dapat digunakan untuk menguji model pada data out-of-sample.
Haruskah saya menggunakan nilai cutoff yang meminimalkan misclassification rate
? ( http://www2.sas.com/proceedings/sugi31/210-31.pdf )
Ditambahkan -> Untuk tingkat kejadian yang rendah, tingkat kesalahan klasifikasi saya dipengaruhi oleh sejumlah besar positif palsu. Meskipun angka keseluruhan terlihat bagus karena ukuran total alam semesta juga besar, tetapi model saya seharusnya tidak memiliki begitu banyak positif palsu (karena ini adalah model pengembalian investasi). 5/10 koefisien signifikan.