Saya mencoba menyesuaikan regresi logistik di mana ada perbedaan besar dalam jumlah poin data di kedua kelompok (70 Vs 10.000). Seorang teman ahli statistik saya mengatakan kepada saya bahwa ini adalah masalah yang diketahui dengan regresi logistik dan bahwa untuk angka-angka itu cocok dengan data dan pada dasarnya tidak berfungsi. Ketika saya menampar data dan membandingkannya dengan model, cukup jelas bahwa ini memang benar.
Saya bertanya-tanya apakah ada yang menyadari metode yang lebih baik / lebih fleksibel untuk menyesuaikan data respons biner seperti ini?
(Ngomong-ngomong aku bukan ahli statistik, jadi santai saja!)