Saya menjalankan regresi OLS besar di mana semua variabel independen (sekitar 400) adalah variabel dummy. Jika semua termasuk, ada multikolinieritas sempurna (perangkap variabel dummy), jadi saya harus menghilangkan salah satu variabel sebelum menjalankan regresi.
Pertanyaan pertama saya adalah, variabel mana yang harus dihilangkan? Saya telah membaca bahwa lebih baik untuk menghilangkan variabel yang ada dalam banyak pengamatan daripada yang hanya ada beberapa (misalnya jika hampir semua pengamatan adalah "laki-laki" atau "perempuan" dan hanya beberapa yang "tidak diketahui"). ", hilangkan" pria "atau" wanita "). Apakah ini dibenarkan?
Setelah menjalankan regresi dengan variabel yang dihilangkan, saya dapat memperkirakan nilai koefisien dari variabel yang dihilangkan karena saya tahu bahwa rata-rata keseluruhan dari semua variabel independen saya harus 0. Jadi saya menggunakan fakta ini untuk menggeser nilai koefisien untuk semua termasuk variabel, dan dapatkan taksiran untuk variabel yang dihilangkan. Pertanyaan saya berikutnya adalah apakah ada beberapa teknik serupa yang dapat digunakan untuk memperkirakan kesalahan standar untuk nilai koefisien variabel yang dihilangkan. Karena saya harus menjalankan kembali regresi menghilangkan variabel yang berbeda (dan termasuk variabel saya telah dihilangkan dalam regresi pertama) untuk memperoleh estimasi kesalahan standar untuk koefisien dari variabel yang awalnya dihilangkan.
Akhirnya, saya perhatikan bahwa estimasi koefisien yang saya dapatkan (setelah memusatkan kembali sekitar nol) sedikit bervariasi tergantung pada variabel mana yang dihilangkan. Secara teori, akankah lebih baik menjalankan beberapa regresi, masing-masing menghilangkan variabel yang berbeda, dan kemudian rata-rata estimasi koefisien dari semua regresi?