Kapan perlunya memasukkan lag variabel dependen dalam model regresi dan lag yang mana?


14

Data yang ingin kita gunakan sebagai variabel dependen terlihat seperti ini (ini adalah data hitungan). Kami takut karena memiliki komponen siklik dan struktur tren, regresi ternyata menjadi bias.

masukkan deskripsi gambar di sini

Kami akan menggunakan regresi binomial negatif jika itu membantu. Data adalah panel seimbang, satu boneka per individu (negara bagian). Gambar yang ditampilkan menampilkan jumlah variabel dependen untuk semua negara tetapi kebanyakan negara bagian saja memiliki perilaku yang sama. Kami sedang mempertimbangkan model efek tetap. Variabel dependen tidak berkorelasi sangat kuat, bagian dari penelitian ini adalah untuk menemukan hubungan yang tidak terduga di antara variabel-variabel ini, sehingga hubungan yang lemah sebenarnya adalah sesuatu yang baik.

  1. Apa bahaya yang pasti dari tidak termasuk variabel lag dari variabel dependen?
  2. Jika perlu untuk memasukkan satu apakah ada tes untuk mengetahui yang mana.?

Implementasi sedang dilakukan di R.

Catatan : Saya memang membaca posting ini tetapi tidak membantu masalah kami.

Jawaban:


14

Model panel dinamis mungkin masuk akal jika Anda memiliki model pembalasan mata-untuk-mata untuk pembunuhan. Sebagai contoh, jika tingkat pembunuhan itu sebagian besar didorong oleh geng permusuhan, pembunuhan pada waktu mungkin akan fungsi dari kematian di t -t , atau kelambatan lainnya. t1

Saya akan menjawab pertanyaan Anda rusak. Misalkan DGP adalah

yit=δyit1+xitβ+μi+vit,

di mana kesalahan dan v tidak tergantung satu sama lain dan di antara mereka sendiri. Anda tertarik untuk melakukan tes apakah δ =μv (pertanyaan 2).δ=0

Jika Anda menggunakan OLS, mudah untuk melihat bahwa dan bagian pertama dari kesalahan tersebut berkorelasi, yang menjadikan OLS bias dan tidak konsisten, bahkan ketika tidak ada korelasi serial dalam vyit1v . Kami membutuhkan sesuatu yang lebih rumit untuk melakukan tes.

Hal berikutnya yang mungkin Anda coba adalah pengukur efek tetap dengan transformasi di dalam, di mana Anda mengubah data dengan mengurangi rata-rata setiap unit , ˉ y i , dari setiap pengamatan. Ini menghapus μ , tetapi estimator ini menderita dari bias Nickell , yang biasnya tidak hilang ketika jumlah pengamatan N bertambah, sehingga tidak konsisten untuk panel N besar dan T kecil . Namun, ketika T tumbuh, Anda mendapatkan konsistensi δ dan β . Judson dan Owen (1999) melakukan beberapa simulasi dengan N 100 dan Tyy¯iμNNTTδβN=20,100 dan menemukan bias meningkat di δ dan penurunan T . Namun, bahkan untuk T = 30 , bias bisa sebanyak 20 % dari nilai koefisien sebenarnya. Itu kabar buruk beruang! Jadi tergantung pada dimensi panel Anda, Anda mungkin ingin menghindari penaksir dalam FE. Jika δ > 0 , biasnya negatif, sehingga persistensi y diremehkan. Jika regressor berkorelasi dengan lag, βT=5,10,20,30δTT=3020%δ>0yβ juga akan menjadi bias.

Pendekatan FE sederhana lainnya adalah untuk pertama-membedakan data untuk menghapus efek tetap, dan menggunakan untuk instrumen untuk Δ y i t - 1 = y i t - 1 - y i t - 2 . Anda juga menggunakan x i t - x i t - 1 sebagai instrumen untuk dirinya sendiri. Anderson dan Hsiao (1981) adalah rujukan kanonik. Estimator ini konsisten (selama penjelasan asliyit2Δyit1=yit1yit2xitxit1 ditentukan sebelumnya danXistilah kesalahan tidak dihubungkan secara seri), tetapi tidak sepenuhnya efisien karena tidak menggunakan semua kondisi momen yang tersedia dan tidak menggunakan fakta bahwa istilah kesalahan sekarang berbeda. Ini mungkin akan menjadi pilihan pertama saya. Jika Anda berpikir bahwa mengikuti proses AR (1), dapat menggunakan lag ketiga dan keempat yvy sebagai gantinya.

Arellano and Bond (1991) memperoleh estimator metode generalisasi momen (GMM) yang lebih efisien, yang telah diperpanjang sejak itu, mengendurkan beberapa asumsi. Bab 8 dari buku panel Baltagi adalah survei yang bagus untuk literatur ini, meskipun itu tidak membahas pemilihan lag sejauh yang saya tahu. Ini adalah metrik canggih, tetapi secara teknis lebih menuntut.

Saya pikir plmpaket di R memiliki beberapa di dalamnya. Model panel dinamis telah ada di Stata sejak versi 10 , dan SAS memiliki versi GMM setidaknya. Tidak ada dari ini yang menghitung model data, tetapi itu mungkin bukan masalah besar tergantung pada data Anda. Namun, inilah salah satu contoh model panel Poisson dinamis GMM di Stata.

Jawaban untuk pertanyaan pertama Anda lebih spekulatif. Jika Anda meninggalkan perbedaan dan pertama yang tertinggal , saya percaya bahwa β masih dapat diperkirakan secara konsisten, meskipun kurang tepat karena varians sekarang lebih besar. Jika itu adalah parameter yang Anda pedulikan, itu mungkin dapat diterima. Apa yang Anda kehilangan adalah bahwa Anda tidak dapat mengatakan apakah ada banyak pembunuhan di daerah X karena mereka banyak bulan lalu atau karena daerah X memiliki kecenderungan untuk melakukan kekerasan. Anda melepaskan kemampuan untuk membedakan antara ketergantungan negara dan heterogenitas yang tidak teramati (pertanyaan 1). yβ


Jadi Anda menggunakan level sebagai instrumen ketika Anda memiliki seri berbeda, dan perbedaan ketika Anda memiliki seri dalam tingkat ?
Andy W

iΔyt2=yt2yt3yt2Δyt1=yt1yt2
Dimitriy V. Masterov
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.