(posting yang cukup panjang, maaf. Ini termasuk banyak info latar belakang, jadi silakan lewati ke pertanyaan di bagian bawah.)
Intro: Saya sedang mengerjakan sebuah proyek di mana kami mencoba mengidentifikasi efek dari variabel endogen biner, , pada hasil yang berkelanjutan, y . Kami memiliki datang dengan instrumen, z 1 , bahwa kita sangat percaya untuk menjadi seperti-jika-acak.
Data: Data itu sendiri berada dalam struktur panel dengan sekitar 34.000 pengamatan tersebar di 1000 unit dan sekitar 56 periode waktu. mengambil nilai 1 untuk sekitar 700 (2%) dari pengamatan, dan z 1 melakukannya untuk sekitar 3000 (9%). 111 (0,33%) pengamatan skor 1 pada z 1 dan x 1 , dan dua kali lebih mungkin untuk pengamatan untuk skor 1 pada x 1 jika juga skor 1 pada z 1 .
Estimasi: Kami memperkirakan model 2SLS berikut melalui prosedur ivreg2 Stata:
y = β 0 + β 1 x ∗ 1 + Z β + u
Di mana adalah vektor dari variabel eksogen lainnya, x ∗ 1 adalah nilai prediksi x 1 dari tahap pertama, dan u dan v adalah istilah kesalahan.
Menurut uji AR mereka, batas bawah interval kepercayaan 95% untuk koefisien tahap kedua adalah antara 16 dan 29 (sekali lagi tergantung pada spesifikasi). Peluang penolakan praktis 1 untuk semua nilai mendekati nol.
Pengamatan berpengaruh: Kami telah mencoba memperkirakan model dengan setiap unit dihapus secara individual, dengan masing-masing pengamatan dihapus secara individual, dan dengan kelompok unit dihapus. Tidak ada perubahan nyata.
(spesifikasi lain memberikan hasil yang hampir identik). Ini akan jauh lebih masuk akal (namun masih substansial). Sepertinya solusi yang tepat. Kecuali saya belum pernah melihat orang melakukan itu; setiap orang tampaknya menafsirkan koefisien tahap kedua menggunakan metrik variabel endogen asli.
Pertanyaan: Dalam model-IV, apakah benar untuk merangkum efek yang diperkirakan (LATE, benar-benar) dari peningkatan variabel endogen dengan menggunakan metrik dari versi prediksi itu? Dalam kasus kami, metrik tersebut merupakan prediksi probabilitas.
Catatan: Kami menggunakan 2SLS meskipun kami memiliki variabel endogen biner (menjadikan tahap pertama sebagai LPM). Ini mengikuti Angrist & Krueger (2001): "Variabel Instrumental dan Pencarian Identifikasi: Dari Pasokan dan Permintaan ke Eksperimen Alami") Kami juga telah mencoba prosedur tiga tahap yang digunakan di Adams, Almeida, & Ferreira (2009): " Memahami hubungan antara pendiri-CEO dan kinerja perusahaan ”. Pendekatan terakhir, yang terdiri dari model probit diikuti oleh 2SLS, menghasilkan koefisien yang lebih kecil dan lebih masuk akal, tetapi mereka masih sangat besar jika ditafsirkan dalam metrik 0-1 (sekitar 9-10). Kami mendapatkan hasil yang sama dengan perhitungan manual seperti yang kami lakukan dengan opsi probit-2sls-di ivtreatreg Cerulli.
etregress/treatreg
?