Saya tidak setuju dengan jawaban lain di komentar, jadi itu adil saya berikan jawaban saya sendiri. Biarkan menjadi respons (akun baik / buruk), dan X menjadi kovariat.YX
Untuk regresi logistik, modelnya adalah sebagai berikut:
catatan( p ( Y= 1 | X= x )p ( Y= 0 | X= x )) =Α+ Σki = 1xsayaβsaya
Pikirkan tentang bagaimana data dapat dikumpulkan:
- Anda bisa memilih pengamatan secara acak dari beberapa "populasi" hipotetis
- Anda dapat memilih data berdasarkan , dan melihat nilai Y apa yang terjadi.XY
Keduanya tidak apa-apa untuk model di atas, karena Anda hanya memodelkan distribusi . Ini akan disebut studi prospektifY| X .
Kalau tidak:
- Anda dapat memilih pengamatan berdasarkan (misalkan masing-masing 100), dan melihat prevalensi relatif X (yaitu Anda bertingkat pada Y ). Ini disebut studi retrospektif atau kontrol kasus .YXY
(Anda juga bisa memilih data berdasarkan dan variabel X tertentuYX : ini akan menjadi studi kasus-kontrol bertingkat, dan jauh lebih rumit untuk dikerjakan, jadi saya tidak akan membahasnya di sini).
Ada hasil yang bagus dari epidemiologi (lihat Prentice dan Pyke (1979) ) bahwa untuk studi kasus-kontrol, estimasi kemungkinan maksimum untuk β dapat ditemukan dengan regresi logistik, yaitu menggunakan model prospektif untuk data retrospektif.
Jadi bagaimana ini relevan dengan masalah Anda?
Artinya, jika Anda dapat mengumpulkan lebih banyak data, Anda bisa melihat akun buruk dan masih menggunakan regresi logistik untuk memperkirakan (tetapi Anda perlu menyesuaikan α untuk memperhitungkan representasi berlebihan). ). Katakanlah biayanya $ 1 untuk setiap akun tambahan, maka ini mungkin lebih efektif daripada hanya melihat semua akun.βsayaα
Tetapi di sisi lain, jika Anda sudah memiliki SEMUA data yang mungkin, tidak ada gunanya untuk bertingkat: Anda hanya akan membuang data (memberikan perkiraan yang lebih buruk), dan kemudian dibiarkan dengan masalah mencoba memperkirakan .α