Masalah perangkap variabel dummy


10

Saya menjalankan regresi OLS besar di mana semua variabel independen (sekitar 400) adalah variabel dummy. Jika semua termasuk, ada multikolinieritas sempurna (perangkap variabel dummy), jadi saya harus menghilangkan salah satu variabel sebelum menjalankan regresi.

Pertanyaan pertama saya adalah, variabel mana yang harus dihilangkan? Saya telah membaca bahwa lebih baik untuk menghilangkan variabel yang ada dalam banyak pengamatan daripada yang hanya ada beberapa (misalnya jika hampir semua pengamatan adalah "laki-laki" atau "perempuan" dan hanya beberapa yang "tidak diketahui"). ", hilangkan" pria "atau" wanita "). Apakah ini dibenarkan?

Setelah menjalankan regresi dengan variabel yang dihilangkan, saya dapat memperkirakan nilai koefisien dari variabel yang dihilangkan karena saya tahu bahwa rata-rata keseluruhan dari semua variabel independen saya harus 0. Jadi saya menggunakan fakta ini untuk menggeser nilai koefisien untuk semua termasuk variabel, dan dapatkan taksiran untuk variabel yang dihilangkan. Pertanyaan saya berikutnya adalah apakah ada beberapa teknik serupa yang dapat digunakan untuk memperkirakan kesalahan standar untuk nilai koefisien variabel yang dihilangkan. Karena saya harus menjalankan kembali regresi menghilangkan variabel yang berbeda (dan termasuk variabel saya telah dihilangkan dalam regresi pertama) untuk memperoleh estimasi kesalahan standar untuk koefisien dari variabel yang awalnya dihilangkan.

Akhirnya, saya perhatikan bahwa estimasi koefisien yang saya dapatkan (setelah memusatkan kembali sekitar nol) sedikit bervariasi tergantung pada variabel mana yang dihilangkan. Secara teori, akankah lebih baik menjalankan beberapa regresi, masing-masing menghilangkan variabel yang berbeda, dan kemudian rata-rata estimasi koefisien dari semua regresi?


Bisakah Anda mengklarifikasi apa yang Anda maksud dengan "rata-rata keseluruhan semua variabel bebas saya harus 0" dan bagaimana Anda tahu ini?
onestop

Pada dasarnya saya ingin mengevaluasi semua variabel relatif terhadap rata-rata (rata-rata semua variabel). Koefisien dari regresi relatif terhadap variabel yang dihilangkan. Jadi ketika saya mengurangi rata-rata semua koefisien (termasuk koefisien variabel yang dihilangkan dari 0) dari setiap nilai koefisien, nilai yang disesuaikan sekarang akan rata-rata 0, dan setiap nilai koefisien dapat dilihat sebagai jarak dari rata-rata.
James Davison

Jawaban:


8

Anda harus mendapatkan taksiran "sama" tidak peduli variabel mana yang Anda abaikan; yang koefisien mungkin berbeda, namun perkiraan jumlah atau tertentu harapan harus sama di semua model.

Dalam kasus sederhana, misalkan untuk pria dan 0 untuk wanita. Kemudian, kami memiliki model: E [ y ix i ]xsaya=1 Sekarang, marizi=1untuk wanita. Kemudian E [ y iz i ]

E[ysayaxsaya]=xsayaE[ysayaxsaya=1]+(1-xsaya)E[ysayaxsaya=0]=E[ysayaxsaya=0]+[E[ysayaxsaya=1]-E[ysayaxsaya=0]]xsaya=β0+β1xsaya.
zsaya=1 Nilai yang diharapkan dariyuntuk wanita adalahβ0dan jugaγ0+γ1. Untuk pria, itu adalahβ0+β1danγ0.
E[ysayazsaya]=zsayaE[ysayazsaya=1]+(1-zsaya)E[ysayazsaya=0]=E[ysayazsaya=0]+[E[ysayazsaya=1]-E[ysayazsaya=0]]zsaya=γ0+γ1zsaya.
yβ0γ0+γ1β0+β1γ0

Hasil ini menunjukkan bagaimana koefisien dari dua model saling berhubungan. Misalnya, . Latihan serupa menggunakan data Anda harus menunjukkan bahwa koefisien "berbeda" yang Anda dapatkan hanyalah jumlah dan perbedaan satu sama lain.β1=-γ1


4

James, pertama-tama mengapa analisis regresi, tetapi bukan ANOVA (ada banyak spesialis dalam analisis semacam ini yang dapat membantu Anda)? The pro untuk ANOVA adalah bahwa semua Anda benar-benar tertarik pada perbedaan dalam cara kelompok yang berbeda dijelaskan oleh kombinasi dari variabel dummy (kategori unik, atau profil). Nah, jika Anda mempelajari dampak dari masing-masing variabel kategori yang Anda sertakan, Anda dapat menjalankan regresi juga.

n(1,0)(0,1)(-1,-1)

Yah untuk menghilangkan kategori profil terbesar sepertinya baik untuk saya, meskipun tidak begitu penting, setidaknya tidak kosong saya pikir. Karena Anda mengkode variabel dengan cara tertentu, signifikansi statistik gabungan dari variabel dummy yang disertakan (keduanya perempuan laki-laki, dapat diuji dengan uji F) menyiratkan signifikansi variabel yang dihilangkan.

Mungkin saja hasilnya sedikit berbeda, tetapi mungkinkah pengkodean yang salah mempengaruhi hal ini?


Maaf jika tulisan saya tidak jelas, ini tengah malam di Lithuania.
Dmitrij Celov

Mengapa Anda tidak dikenal (-1, -1) alih-alih (0,0)?
siamii

1

Tanpa mengetahui sifat pasti dari analisis Anda, sudahkah Anda mempertimbangkan pengkodean efek? Dengan cara ini masing-masing variabel akan mewakili efek dari sifat / atribut vs keseluruhan rata-rata besar daripada beberapa kategori yang dihilangkan tertentu. Saya yakin Anda masih akan kehilangan koefisien untuk salah satu kategori / atribut - yang Anda tetapkan dengan -1. Namun, dengan banyak dummies ini, saya akan berpikir bahwa mean besar akan membuat kelompok pembanding yang lebih bermakna daripada kategori tertentu yang dihilangkan.

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.