Saya memiliki dataset dengan 8000 cluster dan 4 juta pengamatan. Sayangnya perangkat lunak statistik saya, Stata, berjalan agak lambat ketika menggunakan fungsi data panel untuk regresi logistik:, xtlogit
bahkan dengan subsampel 10%.
Namun, ketika menggunakan logit
fungsi fungsi nonpanel muncul lebih cepat. Karena itu saya mungkin bisa mendapat manfaat dari menggunakan logit
data yang dimodifikasi yang memperhitungkan efek tetap.
Saya percaya prosedur ini menghasilkan "prosedur efek tetap Mundlak" (Mundlak, Y. 1978. Kumpulan Data Time-Series dan Cross-section. Econometrica, 46 (1), 69-85.)
Saya menemukan penjelasan intuitif dari prosedur ini dalam sebuah makalah oleh Antonakis, J., Bendahan, S., Jacquart, P., & Lalive, R. (2010). Tentang membuat klaim sebab-akibat: Tinjauan dan rekomendasi. Kuartal Kepemimpinan, 21 (6). 1086-1120. Saya mengutip:
Salah satu cara untuk mengatasi masalah efek tetap yang dihilangkan dan untuk tetap memasukkan variabel Level 2 adalah dengan memasukkan rata-rata cluster dari semua kovariat Level 1 dalam model estimasi (Mundlak, 1978). Berarti cluster dapat dimasukkan sebagai regressor atau dikurangkan (yaitu, center-mean centering) dari kovariat Level 1. Rata-rata klaster adalah tidak tetap dalam klaster (dan bervariasi di antara kluster) dan memungkinkan untuk estimasi yang konsisten dari parameter Level 1 sama seperti jika efek tetap telah dimasukkan (lihat Rabe-Hesketh & Skrondal, 2008).
Oleh karena itu pemusatan rata-rata kluster tampak ideal dan praktis untuk menyelesaikan masalah komputasi saya. Namun, makalah ini tampaknya diarahkan untuk regresi linier (OLS).
Apakah metode pemusatan rata-rata klaster ini juga berlaku untuk "replikasi" efek tetap regresi logistik biner?
Pertanyaan yang lebih teknis yang harus menghasilkan jawaban yang sama adalah: apakah xtlogit depvar indepvars, fe
dengan dataset A sama logit depvar indepvars
dengan dataset B ketika dataset B adalah versi cluster-mean centered dari dataset A?
Kesulitan tambahan yang saya temukan dalam pemusatan rata-rata gugus ini adalah bagaimana cara mengatasi boneka. Karena boneka adalah 0 atau 1, apakah identik dalam regresi efek acak dan tetap? Haruskah mereka tidak "terpusat"?