Dua model tahap: Perbedaan antara model Heckman (untuk berurusan dengan pemilihan sampel) dan variabel Instrumental (untuk berurusan dengan endogenitas)

16

Saya mencoba mencari tahu perbedaan antara pemilihan sampel dan endogenitas dan pada gilirannya bagaimana model Heckman (untuk menangani pemilihan sampel) berbeda dari regresi variabel instrumental (untuk menangani endogenitas).

Apakah benar untuk mengatakan bahwa pemilihan sampel adalah bentuk endogenitas tertentu, di mana variabel endogen adalah kemungkinan diperlakukan?

Juga, bagi saya tampaknya bahwa kedua model Heckman dan regresi IV adalah model 2-tahap, di mana tahap pertama memprediksi kemungkinan diperlakukan - saya berasumsi mereka harus berbeda dalam hal apa yang mereka lakukan secara empiris, tujuan mereka, dan asumsi, tapi bagaimana caranya?

— kyrenia
sumber

23

Untuk menjawab pertanyaan pertama Anda , Anda benar bahwa pemilihan sampel adalah bentuk endogenitas tertentu (Lihat Antonakis et al. 2010 untuk ulasan dasar yang baik tentang endogenitas dan solusi umum), namun Anda tidak benar dalam mengatakan bahwa kemungkinan diperlakukan adalah variabel endogen, karena merupakan variabel pengobatan itu sendiri ("penugasan pengobatan non-acak") - daripada kemungkinan dirawat - yang bersifat endogen dalam pemilihan sampel. Ingatlah bahwa endogenitas merujuk pada situasi di mana Anda salah mengidentifikasi hubungan sebab akibat antara faktor X dan faktor Y, ketika "hubungan" yang diamati sebenarnya disebabkan oleh faktor Z lainnya yang mempengaruhi X dan Y. Dengan kata lain, diberikan model regresi :

$y_i=\beta_0+\beta_1x_i+...+\epsilon_i$

endogenitas terjadi ketika satu atau lebih dari satu prediktor Anda terkait dengan istilah kesalahan dalam model. Artinya, ketika . $Cov(x,\epsilon)\ne0$

Penyebab umum endogenitas meliputi:

Variabel yang dihapus (beberapa hal yang tidak dapat kami ukur)
- Motivasi / pilihan
- Kemampuan / bakat
- Seleksi sendiri
Kesalahan pengukuran (kami ingin memasukkan , tetapi kami hanya mengamati ) $x_j$ $x_j*$
Simultanitas / dua arah (pada anak di bawah 5 tahun, hubungan antara indikator status gizi "berat untuk usia" dan apakah anak memiliki penyakit baru-baru ini mungkin bersamaan).

Berbagai jenis masalah memerlukan solusi yang sedikit berbeda, yang merupakan perbedaan antara koreksi tipe IV dan Heckman. Tentu saja ada perbedaan dalam mekanisme yang mendasari metode ini, tetapi premisnya sama: yaitu untuk menghilangkan endogenitas, idealnya melalui pembatasan eksklusi, yaitu satu atau lebih instrumen dalam kasus IV atau variabel yang mempengaruhi seleksi tetapi tidak hasil dalam kasus Heckman.

Untuk menjawab pertanyaan kedua Anda , Anda harus memikirkan perbedaan dalam jenis keterbatasan data yang memunculkan pengembangan solusi ini. Saya suka berpikir bahwa pendekatan variabel instrumental (IV) digunakan ketika satu atau lebih variabel endogen, dan tidak ada proksi yang baik untuk menempel pada model untuk menghapus endogenitas, tetapi kovariat dan hasil diamati untuk semua pengamatan. Koreksi tipe Heckman, di sisi lain, digunakan ketika Anda memiliki pemotongan, yaitu informasi tidak diamati bagi mereka dalam sampel di mana nilai variabel seleksi == 0.

Pendekatan variabel instrumental (IV)

Pikirkan contoh ekonometrik klasik untuk regresi IV dengan penaksir dua tahap kuadrat (2SLS): pengaruh pendidikan terhadap pendapatan.

(1) $Earnings_i=\beta_0+ \beta_1OwnEd_i + \epsilon_i$

Tingkat pencapaian pendidikan di sini bersifat endogen karena ditentukan sebagian oleh motivasi dan kemampuan individu, yang keduanya juga memengaruhi penghasilan seseorang. Motivasi dan Kemampuan biasanya tidak diukur dalam survei rumah tangga atau ekonomi. Oleh karena itu, Persamaan 1 dapat ditulis untuk secara eksplisit mencakup motivasi dan kemampuan:

(2) $Earnings_i=\beta_0+ \{\beta_1OwnEd_i + \beta_2Motiv_i + \beta_3Abil_i\} + \epsilon_i$

Karena dan tidak benar-benar diamati, Persamaan 2 dapat ditulis sebagai: $Motiv$ $Abil$

(3), $Earnings_i=\beta_0+ \beta_1OwnEd_i + u_i$

dimana (4). $u_i=\beta_2Motiv_i + \beta_3Abil_i + \epsilon_i$

Oleh karena itu estimasi naif dari pengaruh pendidikan terhadap pendapatan melalui OLS akan menjadi bias. Bagian ini sudah Anda ketahui.

Di masa lalu, orang-orang telah menggunakan pendidikan orang tua sebagai instrumen untuk tingkat pendidikan subjek sendiri, karena mereka sesuai dengan 3 persyaratan untuk instrumen yang valid ( ): $z$

harus terkait dengan prediktor endogen - $z$ $𝐶𝑜𝑣(𝑧,𝑥)≠0$ ,
tidak dapat secara langsung terkait dengan hasil - $z$ $𝐶𝑜𝑣(𝑧,𝑦)=0$ , dan
tidak dapat dikaitkan dengan karakteristik (u) yang tidak dapat diamati (yaitu, adalah eksogen) - $z$ $z$ $𝐶𝑜𝑣(𝑧,𝑢)=0$

Ketika Anda memperkirakan pendidikan subjek ( ) menggunakan pendidikan orang tua ( dan ) pada tahap pertama dan menggunakan nilai pendidikan yang diprediksi ( $OwnEd$ $MomEd$ $DadEd$ ) untuk memperkirakanpada tahap kedua, Anda (dalam istilah yang sangat sederhana), memperkirakan $\widehat{OwnEd}$ $Earnings$ berdasarkan porsi $Earnings$ yang tidak ditentukan oleh motivasi / kemampuan. $OwnEd$

Koreksi tipe Heckman

Seperti yang telah kami tentukan sebelumnya, pemilihan sampel non-acak adalah tipe endogenitas tertentu. Dalam hal ini, variabel yang dihilangkan adalah bagaimana orang dipilih ke dalam sampel. Biasanya, ketika Anda memiliki masalah pemilihan sampel, hasil Anda diamati hanya untuk mereka yang pemilihan sampelnya variable == 1. Masalah ini juga dikenal sebagai "pemotongan insidental," dan solusinya umumnya dikenal sebagai koreksi Heckman. Contoh klasik dalam ekonometrik adalah tawaran upah wanita yang sudah menikah:

(5 ) $Wage_i = \beta_0 + \beta_1Educ_i + \beta_2Experience_i + \beta_3Experience^2_i+\epsilon_i$

Masalahnya di sini adalah hanya diamati untuk wanita yang bekerja untuk upah, sehingga penaksir naif akan menjadi bias, karena kita tidak tahu apa penawaran upah bagi mereka yang tidak berpartisipasi dalam angkatan kerja, pemilihan variabel . Persamaan 5 dapat ditulis ulang untuk menunjukkan bahwa itu ditentukan bersama oleh dua model laten: $Wage$ $s$

(6) $Wage_i^* = X\beta^\prime+\epsilon_i$

(7) $LaborForce_i^* = Z\gamma^\prime+\nu_i$

Yaitu, IFF dan IFF $Wage = Wage_i^*$ $LaborForce_i^*>0$ $Wage = .$ $LaborForce_i^*\leq 0$

Oleh karena itu solusi di sini adalah untuk memprediksi kemungkinan partisipasi dalam angkatan kerja pada tahap pertama menggunakan model probit dan pembatasan pengecualian (kriteria yang sama untuk instrumen valid berlaku di sini), menghitung diprediksi terbalik Mills ratio ( ) untuk setiap pengamatan , dan di tahap kedua, memperkirakan tawaran upah menggunakan sebagai prediktor dalam model (Wooldridge 2009). Jika koefisien secara statistik sama dengan nol, tidak ada bukti dari pemilihan sampel (endogeneity), dan OLS hasil yang konsisten dan dapat disajikan. Jika koefisien pada $\hat{\lambda}$ $\hat{\lambda}$ $\hat{\lambda}$ $\hat{\lambda}$ secara statistik berbeda nyata dari nol, Anda harus melaporkan koefisien dari model yang dikoreksi.

Referensi

Antonakis, John, Samuel Bendahan, Philippe Jacquart, dan Rafael Lalive. 2010. “Tentang Pengajuan Klaim Kausal: Tinjauan dan Rekomendasi.” The Leadership Quarterly 21 (6): 1086–1120. doi: 10.1016 / j.leaqua.2010.10.010.
Wooldridge, Jeffrey M. 2009. Pengantar Ekonometrika: Pendekatan Modern. 4th ed. Mason, OH, AS: Barat Daya, Cengage Learning.

— Marquis de Carabas
sumber

1

Dalam koreksi tipe-Heckman, bagaimana cara menafsirkan nilai rasio Mills terbalik untuk setiap pengamatan? Apakah dikatakan jumlah orang yang akan bekerja dari populasi yang tidak bekerja pada saat tertentu?

— Quirik

2

Seseorang harus membuat perbedaan antara model pemilihan sampel Heckman tertentu (di mana hanya satu sampel yang diamati) dan koreksi tipe-Heckman untuk seleksi sendiri, yang juga dapat bekerja untuk kasus di mana dua sampel diamati. Yang terakhir disebut sebagai pendekatan fungsi kontrol , dan jumlah untuk dimasukkan ke dalam tahap kedua Anda istilah mengendalikan endogenitas.

Mari kita punya kasus standar dengan variabel dummy endogen D, instrumen Z:

Y = β + β_{1} D + ϵ

$Y= \beta + \beta_1 D +\epsilon$

D = γ + γ_{1} Z + kamu

$D= \gamma + \gamma_1 Z +u$

Kedua pendekatan menjalankan tahap pertama (D pada Z). IV menggunakan OLS standar (bahkan jika D adalah boneka) Heckman menggunakan probit. Tapi selain itu, perbedaan utama adalah pada cara mereka menggunakan tahap pertama ini ke dalam persamaan utama:

IV : pecahkan endogenitas dengan mendekomposisi D menjadi bagian-bagian yang tidak berkorelasi $\epsilon$ , diberikan oleh prediksi D: $Y= \beta + \beta_1 \hat{D}+\epsilon$
Heckman : memodelkan endogenitas: mempertahankan D endogen, tetapi menambahkan fungsi dari nilai prediksi dari tahap pertama. Untuk kasus ini, ini adalah fungsi yang cukup rumit: $Y= \beta + \beta_1 D + \beta_2 \left[\lambda(\hat{D})-\lambda(-\hat{D})\right ] +\epsilon$ where $\lambda()$ adalah rasio Mills terbalik

Keuntungan dari prosedur Heckman adalah memberikan tes langsung untuk endogenitas: koefisien $\beta_2$ . Di sisi lain, prosedur Heckman bergantung pada asumsi normalitas gabungan kesalahan, sementara IV tidak membuat asumsi seperti itu.

Jadi Anda memiliki cerita standar bahwa dengan kesalahan normal, fungsi kontrol akan lebih efisien (terutama jika yang menggunakan MLE daripada dua langkah yang ditunjukkan di sini) daripada IV, tetapi jika asumsi tidak berlaku, IV akan menjadi lebih baik. Karena para peneliti menjadi lebih curiga tentang asumsi normalitas, IV digunakan lebih sering.

— Matifou
sumber

0

Dari Heckman, Urzua and Vytlacil (2006):

Contoh bias seleksi : Pertimbangkan dampak kebijakan terhadap hasil suatu negara (misalnya PDB). Jika negara-negara yang akan melakukan dengan baik dalam hal yang tidak dapat diamati bahkan tanpa adanya kebijakan adalah negara-negara yang mengadopsi kebijakan tersebut, maka estimasi OLS menjadi bias.

Dua pendekatan utama telah diadopsi untuk memecahkan masalah ini: (a) model seleksi dan (b) model variabel instrumental.

Pendekatan seleksi memodelkan tingkat sarana bersyarat. Pendekatan IV memodelkan lereng sarana bersyarat. IV tidak mengidentifikasi konstanta yang diperkirakan dalam model seleksi.

The IV approach does not condition on D (the treatment). The selection (control function) estimator identifies the conditional means using control functions.

When using control functions with curvature assumptions, one does not require an exclusion restriction (does not require $Z\neq X$ ) in the selection model. By assuming a functional form for the distribution of the error terms, one rules out the possibility that the conditional mean of the outcome equation equals the conditional control function, and thus you can correct for selection without exclusion restrictions. See also Heckman and Navarro (2004).

— José Gabriel Astaiza-Gómez
sumber