Pertanyaan ini agak umum dan bertele-tele, tapi tolong tahan dengan saya.
Dalam aplikasi saya, saya memiliki banyak dataset, masing-masing terdiri dari ~ 20.000 titik data dengan ~ 50 fitur dan satu variabel biner yang tergantung. Saya mencoba untuk memodelkan dataset menggunakan regresi logistik teratur (paket R glmnet )
Sebagai bagian dari analisis saya, saya telah membuat plot residual sebagai berikut. Untuk setiap fitur, saya mengurutkan titik data sesuai dengan nilai fitur itu, membagi titik data menjadi 100 ember, dan kemudian menghitung nilai output rata-rata dan nilai prediksi rata-rata dalam setiap ember. Saya merencanakan perbedaan-perbedaan ini.
Berikut ini contoh plot sisa:
Dalam plot di atas, fitur tersebut memiliki kisaran [0,1] (dengan konsentrasi berat pada 1). Seperti yang Anda lihat, ketika nilai fitur rendah, model tampaknya bias terhadap perkiraan kemungkinan 1-output. Misalnya, dalam bucket paling kiri, model melebih-lebihkan probabilitas sekitar 9%.
Berbekal informasi ini, saya ingin mengubah definisi fitur secara langsung untuk secara kasar memperbaiki bias ini. Perubahan suka diganti
atau
Bagaimana saya bisa melakukan ini? Saya mencari metodologi umum sehingga manusia dapat dengan cepat menelusuri semua ~ 50 plot dan membuat perubahan, dan melakukan ini untuk semua dataset dan sering mengulangi untuk menjaga model tetap up-to-date karena data berkembang seiring waktu.
Sebagai pertanyaan umum, apakah ini pendekatan yang tepat? Pencarian Google untuk "analisis residu regresi logistik" tidak menghasilkan banyak hasil dengan saran praktis yang baik. Mereka tampaknya terpaku pada menjawab pertanyaan, "Apakah model ini cocok?" dan menawarkan berbagai tes seperti Hosmer-Lemeshow untuk menjawab. Tapi saya tidak peduli apakah model saya bagus, saya ingin tahu bagaimana membuatnya lebih baik!