Saya ingin mempelajari peristiwa langka dalam populasi terbatas. Karena saya tidak yakin tentang strategi mana yang paling cocok, saya akan menghargai tips dan referensi yang berkaitan dengan masalah ini, meskipun saya sangat menyadari bahwa strategi ini telah banyak dibahas. Aku benar-benar tidak tahu harus mulai dari mana.
Masalah saya adalah ilmu politik dan saya memiliki populasi terbatas yang terdiri dari 515.843 catatan. Mereka terkait dengan variabel dependen biner dengan 513.334 "0" dan 2.509 "1". Saya dapat koin "1" saya sebagai peristiwa langka karena hanya menyumbang 0,49% dari populasi.
Saya memiliki satu set sekitar 10 variabel independen yang ingin saya bangun model dengan menjelaskan keberadaan "1". Seperti banyak dari kita, saya membaca artikel King & Zeng 2001 tentang koreksi peristiwa langka. Pendekatan mereka adalah menggunakan desain case-control untuk mengurangi jumlah "0", kemudian menerapkan koreksi pada intersep.
Namun, posting ini mengatakan bahwa argumen King & Zeng tidak diperlukan jika saya sudah mengumpulkan data saya di seluruh populasi, yang merupakan kasus saya. Oleh karena itu, saya harus menggunakan model logit klasik. Sayangnya bagi saya, meskipun saya mendapatkan koefisien signifikan yang baik, model saya sama sekali tidak berguna dalam hal prediksi (gagal memprediksi 99,48% dari "1" saya).
Setelah membaca artikel King & Zeng, saya ingin mencoba desain case-control dan hanya memilih 10% dari "0" dengan semua "1". Dengan koefisien yang hampir sama, model ini mampu memprediksi hampir sepertiga dari "1" ketika diterapkan pada populasi penuh. Tentu saja, ada banyak false-positive.
Jadi saya punya tiga pertanyaan yang ingin saya tanyakan:
1) Jika pendekatan King & Zeng berprasangka ketika Anda memiliki pengetahuan penuh tentang populasi, mengapa mereka menggunakan situasi di mana mereka tahu populasi dalam artikel mereka untuk membuktikan pendapat mereka?
2) Jika saya memiliki koefisien yang baik dan signifikan dalam regresi logit, tetapi daya prediksi yang sangat buruk, apakah itu berarti bahwa variasi yang dijelaskan oleh variabel ini tidak ada artinya?
3) Apa pendekatan terbaik untuk menghadapi peristiwa langka? Saya membaca tentang model relogit King, pendekatan Firth, logit yang tepat, dll. Saya harus akui bahwa saya tersesat di antara semua solusi ini.