Mengapa menggunakan DV yang tertinggal sebagai variabel instrumental?

12

Saya telah mewarisi beberapa kode analisis data yang, tidak menjadi seorang ahli ekonometrika, saya berjuang untuk memahami. Satu model menjalankan regresi variabel instrumental dengan perintah Stata berikut

ivreg my_dv var1 var2 var3 (L.my_dv = D2.my_dv D3.my_dv D4.my_dv)

Dataset ini adalah panel dengan beberapa pengamatan berurutan untuk set variabel ini.

Mengapa kode ini menggunakan nilai lag dari DV sebagai instrumen? Seperti yang saya pahami (dari menggali ke dalam buku teks lama), estimasi IV digunakan ketika ada masalah karena regressor yang berkorelasi dengan istilah kesalahan. Namun, tidak ada yang disebutkan tentang pemilihan lag dari DV sebagai instrumen.

Komentar pada baris kode ini menyebutkan "kausalitas". Setiap bantuan dalam mencari tahu apa tujuan di sini akan sangat disambut.

regression stata instrumental-variables

— laramichaels
sumber

Dari pertanyaan Anda, Anda mungkin membaca kode sedikit salah. Sintaks menggunakan perbedaan sebagai "instrumen" untuk memperkirakan kelambatan variabel dependen.

— Andy W

lara: bisakah Anda mengedit pertanyaan Anda untuk menjelaskan secara sederhana makna kode stata yang terpotong?

— user603

7

Sunting: Mengingat klarifikasi pada kode stata yang disediakan oleh Andy W di bawah ini, saya mengubah jawaban saya untuk lebih baik menanggapi pertanyaan. Anda akan menemukan versi lama dari jawaban saya di bawah yang sekarang.

Tampaknya kode Anda merupakan upaya yang sembrono di DIY'ing penaksir Arellano-Bond (dengan asumsi estimasi ivreg dengan 2SOLS). Anda dapat menemukan detail lebih lanjut tentang penggunaan dan logika penaksir A / B dalam makalah tinjauan bagus ini serta dalam pengantar yang lebih luas ini .

Singkatnya dan dalam 3 baris: meskipun penaksir A / B memang merupakan penaksir IV (yang digeneralisasi), ia tidak digunakan untuk mengatasi masalah sebab akibat apa pun. IV dalam konteks ini digunakan untuk memberikan estimasi koefisien AR yang efisien dalam konteks data panel.

Saya akan merekomendasikan untuk tidak menciptakan kembali roda di sini, dan alih-alih menggunakan kotak alat yang sudah jadi untuk melakukan estimasi tersebut. Untuk stata, Anda dapat menggunakan paket XTABOND2 (atau XTABOND jika Anda menjalankan STAT11).

tanggapan lama:

Contoh sederhana akan membantu Anda di sini. Misalkan Anda memiliki dua variabel dan sampel dari waktu ke waktu sehingga korelasi antara dan sangat tinggi. Anda ingin membuat klaim tentang menyebabkan tetapi sayangnya ada teori bersaing dan kredibel yang sangat bagus di mana menyebabkan . $x_t$ $y_t$ $x_t$ $y_t$ $x_t$ $y_t$ $y_t$ $x_t$

Untuk memisahkan dua model yang bersaing, Anda mundur pada (bukan ). Seringkali, Anda akan kehilangan presisi (yaitu korelasi antar variabel sampel pada waktu yang berbeda biasanya lebih rendah daripada korelasi antara variabel yang diambil secara bersamaan). $y_t$ $x_{t-1}$ $x_t$

Cara dua model yang bersaing - dan - sekarang dipisahkan adalah bahwa, mungkin, tidak ada teori yang baik di mana dari satu periode yang lalu dapat disebabkan oleh arus ('masa lalu tidak dapat disebabkan oleh masa depan'), tidak termasuk rasa kausalitas kedua. $y_t\leftarrow x_{t-1}$ $x_{t-1} \leftarrow y_{t}$ $x$ $y$

Perhatikan bahwa penggunaan trik ini hanya valid jika kedua variabel ( dan adalah stasioner ). $y_t$ $x_{t-1}$ $I(0)$

— pengguna603
sumber

+1 Setuju dengan interpretasi ini tentang hal itu terlihat seperti DIY Arellano-Bond. NB: Saya telah menemukan Arellano-Bond hanya dapat dipercaya ketika jumlah unit cross-sectional sangat besar --- seperti pada, ratusan. Arellano mengisyaratkan sebanyak mungkin dalam artikel dan buku pelajarannya dengan menunjukkan bahwa konsistensi dalam jumlah unit lintas bagian, dan tingkat konvergensi tidak terlalu cepat.

— Cyrus S

5

Saya tidak tahu Stata, jadi saya tidak bisa mengomentari model spesifik. Tetapi penggunaan variabel lagged adalah pendekatan yang cukup umum ketika berhadapan dengan bias simultan pada umumnya dan menciptakan variabel instrumental pada khususnya.

Katakanlah Anda memiliki umpan balik antara dua variabel dalam model Anda: variabel independen (seperti harga) dan variabel dependen (seperti kuantitas). Kemudian keduanya bersifat endogen (penyebabnya timbul dari dalam model) dan gangguan pada istilah kesalahan akan mempengaruhi kedua variabel.

Untuk mengatasi ini, Anda ingin membuat variabel independen (harga) eksogen sehingga gangguan dalam kesalahan hanya mempengaruhi variabel dependen (kuantitas). Ini dilakukan dengan membuat variabel eksogen baru dengan merevisi variabel eksogen lain dalam model Anda pada harga. Variabel eksogen baru ini adalah variabel instrumental (IV) Anda. IVs diturunkan dari istilah eksogen dan karenanya tidak berkorelasi dengan kesalahan.

Tetapi untuk melakukan ini, Anda perlu mencari tahu variabel mana yang eksogen sehingga mereka dapat digunakan untuk menurunkan IV. Kita dapat mencatat bahwa variabel lagged "terjadi" di masa lalu dan dengan demikian tidak dapat dikorelasikan dengan kesalahan di masa sekarang. Variabel yang tertinggal karenanya eksogen dan menjadi kandidat yang tepat untuk memperoleh IV. (Namun, perhatikan bahwa argumen sebelumnya gagal ketika kesalahan terkait otomatis.)

Pengantar dan referensi yang baik untuk ini adalah Pengantar ekonometrika: pendekatan modern oleh Wooldridge.

— ars
sumber

5

Bagi mereka yang tidak terbiasa dengan cuplikan kode berikut dari Stata, OP disediakan

ivreg my_dv var1 var2 var3 (L.my_dv = D2.my_dv D3.my_dv D4.my_dv)

persamaan ini dapat dibaca sebagai

$Y_t = \alpha + \beta_1 (Var1) + \beta_2 (Var1) + \beta_3 (Var1) + \beta_4 (\tilde{Y}_{t-1})$

di mana diperkirakan oleh $\tilde{Y}_{t-1}$

$\tilde{Y}_{t-1} = \alpha + Z_1(\Delta^{2}Y_t) + Z_2(\Delta^{3}Y_t) + Z_3(\Delta^{4}Y_t)$

(yaitu tahap pertama dari persamaan IV adalah dalam tanda kurung dalam kode Stata)

Delta mewakili perbedaan urutan kedua, ketiga, dan keempat, dan mereka digunakan sebagai instrumen yang dikecualikan untuk memperkirakan kelambatan variabel dependen.

Dalam kode Stata, yang L.mengindikasikan lagging variabel dengan , dan menandakan perbedaan urutan pertama dari variabel itu, dan karenanya menandakan urutan kedua berbeda. $t-1$ D.D2.

Awalnya saya tidak bisa memikirkan alasan logis mengapa seseorang melakukan ini. Tetapi Kwak menunjukkan (merujuk makalah ini ) bahwa metode Arellano-Bond menggunakan perbedaan sebagai instrumen untuk memperkirakan komponen auto-regresif dari model. (Juga pada awalnya saya berasumsi bahwa perbedaan hanya akan berpengaruh jika seri non-stasioner, yang Bond menyatakan dalam makalah terkait perbedaan hanya akan menjadi instrumen yang lemah dalam kasus seri adalah jalan acak, pada hal. 21 )

Sebagai saran tentang bahan bacaan lebih lanjut sebagai pengantar variabel instrumental,

Poster lain dalam respons ini (Charlie) terkait dengan beberapa slide yang disiapkannya yang saya sukai dan saya sarankan pantas dicari untuk intro ke variabel instrumental. Saya juga akan menyarankan powerpoint ini seorang profesor saya yang disiapkan untuk lokakarya sebagai pengantar juga. Sebagai saran terakhir bagi siapa pun yang diinstruksikan untuk mempelajari lebih lanjut tentang variabel instrumental, Anda harus melihat karya Joshua Angrist.

Ini jawaban awal saya

Sementara saya setuju dengan segala sesuatu yang Kwak dan ars telah nyatakan, saya masih tidak dapat memikirkan alasan mengapa seseorang akan menggunakan perbedaan variabel dependen sebagai instrumen untuk memperkirakan lag variabel dependen (jika orang tidak tahu kode Stata, L.menunjukkan lagging variabel itu dengan , dan menandakan perbedaan urutan pertama dari variabel itu, dan karenanya menandakan perbedaan urutan kedua). $t-1$ D.D2.

Dalam semua aplikasi yang saya lihat, orang menggunakan lag dari variabel independen sebagai instrumen untuk memperkirakan lag dari variabel dependen (karena alasan pembicaraan tentang). Tapi ini didasarkan pada asumsi bahwa variabel-variabel independen yang tertinggal adalah eksogen terhadap istilah kesalahan dalam periode waktu mereka sedang diterapkan.

Saya tidak tahu alasan apa pun di mana perbedaan variabel dependen akan dianggap eksogen. Sejauh yang saya ketahui, tidak diterima praktik untuk hanya membedakan satu sisi dari persamaan, dan akan menghasilkan hasil yang agak tidak logis (di sini ada makalah yang mengkritik seseorang tentang situasi terbalik di mana mereka memasukkan level variabel sebagai prediktor dari seri yang dibedakan.) Jika Anda mengatur ulang istilah dalam persamaan IV itu sebenarnya terlihat mirip dengan tes Dickey Fuller yang ditambah.

Sementara jawaban yang paling sederhana adalah bertanya kepada orang yang menulis kode, adakah yang bisa memberikan contoh di mana prosedur ini dapat diterima, atau situasi di mana prosedur ini akan mengembalikan beberapa hasil yang bermakna? Seperti saya tidak bisa memikirkan alasan logis mengapa perbedaan akan berdampak pada level kecuali dalam kasus seri ini tidak stasioner.

— Andy W
sumber

Hai Andy. Saya tidak tahu kode stata. Itulah sebabnya saya tidak menyebutkan kode yang dimasukkan dalam jawaban saya, yang harus dipahami sebagai jawaban terhadap bagian pertanyaan yang dirumuskan dalam bahasa Inggris.

— user603

@kwak - Saya tidak mengkritik posting Anda, saya setuju dengan semua yang Anda katakan. Saya hanya ingin tahu apakah ada beberapa logika mengapa seseorang akan menggunakan perbedaan sebagai instrumen yang saya tidak sadari. Saya tidak bisa membayangkan situasi di mana perbedaan akan memenuhi salah satu persyaratan untuk prosedur semacam itu.

— Andy W

Hai Andy:> saya tidak menganggap Anda sebagai kritik. Posting Anda menyoroti aspek kunci dari pertanyaan yang tidak dipahami oleh Rob maupun saya. Jika ada, itu menggambarkan pentingnya kolaborasi.

— user603

+1. Tidak melihat semua ini sebelumnya - Terima kasih telah mencatat masalah serta kursus kilat / mini pada notasi stata. Saya mengambil komentar pertama Anda untuk menyiratkan bahwa interpretasi itu keliru dan dijawab dalam pengertian yang sangat umum. Saya senang Anda lebih gigih dan kwak yang menemukannya.

— ars