Konsistensi 2SLS dengan variabel endogen Binary

Saya telah membaca bahwa estimator 2SLS masih konsisten bahkan dengan variabel endogen biner ( http://www.stata.com/statalist/archive/2004-07/msg00699.html ). Pada tahap pertama, model perawatan probit akan dijalankan alih-alih model linier.

Apakah ada bukti formal untuk menunjukkan bahwa 2SLS masih konsisten bahkan ketika tahap 1 adalah model probit atau logit?

Juga bagaimana jika hasilnya juga biner? Saya mengerti jika kita memiliki hasil biner dan variabel endogen biner (tahap 1 dan 2 sama-sama model biner probit / logit), meniru metode 2SLS akan menghasilkan perkiraan yang tidak konsisten. Apakah ada bukti formal untuk ini? Buku ekonometrik Wooldridge memiliki beberapa diskusi tetapi saya pikir tidak ada bukti kuat untuk menunjukkan ketidakkonsistenan.

data sim;
     do i=1 to 500000;
        iv=rand("normal",0,1);
             x2=rand("normal",0,1);
        x3=rand("normal",0,1);
        lp=0.5+0.8*iv+0.5*x2-0.2*x3;
        T=rand("bernoulli",exp(lp)/(1+exp(lp)));
        Y=-0.8+1.2*T-1.3*x2-0.8*x3+rand("normal",0,1);
        output;
     end;
     run;

****1st stage: logit model ****;
****get predicted values   ****;         
proc logistic data=sim descending;
     model T=IV;
     output out=pred1 pred=p;
     run;

****2nd stage: ols model with predicted values****;
proc reg data=pred1;
     model y=p;
     run;

koefisien dari p = 1.19984. Saya hanya menjalankan satu simulasi tetapi dengan ukuran sampel yang besar.

probit instrumental-variables endogeneity

— Vincent
sumber

Apakah Anda tidak perlu menambahkan tautan = probit ke pernyataan model?

— Mike Hunter

Ada pertanyaan serupa tentang tahap pertama probit dan tahap kedua OLS. Dalam jawaban saya telah memberikan tautan ke catatan yang berisi bukti formal dari ketidakkonsistenan regresi ini yang secara resmi dikenal sebagai "regresi terlarang", seperti yang disebut oleh Jerry Hausman. Alasan utama ketidakkonsistenan pendekatan tahap pertama OLI / OLS tahap kedua adalah bahwa baik operator ekspektasi maupun operator proyeksi linear melewati tahap pertama non-linear. Oleh karena itu nilai-nilai yang dipasang dari probit tahap pertama hanya tidak berkorelasi dengan istilah kesalahan tahap kedua di bawah asumsi yang sangat ketat yang hampir tidak pernah berlaku dalam praktiknya. Perlu diketahui bahwa bukti formal dari inkonsistensi dari regresi terlarang cukup rumit, jika saya ingat dengan benar.

Jika Anda memiliki model mana adalah hasil yang berkelanjutan dan adalah variabel endogen biner, Anda dapat menjalankan tahap pertama melalui OLS dan gunakan nilai yang dipasang daripada di tahap kedua. Ini adalah model probabilitas linier yang Anda maksud. Mengingat bahwa tidak ada masalah untuk ekspektasi atau proyeksi linier untuk tahap linier pertama ini, perkiraan 2SLS Anda akan konsisten walaupun kurang efisien daripada yang seharusnya jika kami mempertimbangkan sifat non-linear .

Y_{i} = α + β X_{i} + ϵ_{i}

$Y_i = \alpha + \beta X_i + \epsilon_i$

Y_{i}

$Y_i$

X_{i}

$X_i$

X_{i} = a + Z_{i}^{'} π + η_{i}

$X_i = a + Z'_i\pi + \eta_i$

{\hat{X}}_{i}

$\widehat{X}_i$

X_{i}

$X_i$

X_{i}

$X_i$

Konsistensi dari pendekatan ini berasal dari fakta bahwa sementara model non-linear mungkin cocok dengan fungsi harapan bersyarat lebih erat untuk variabel dependen terbatas ini tidak masalah banyak jika Anda tertarik pada efek marginal. Dalam model probabilitas linier, koefisien itu sendiri adalah efek marginal yang dievaluasi pada rata-rata, jadi jika efek marginal pada rata-rata adalah apa yang Anda kejar (dan biasanya orang), maka inilah yang Anda inginkan mengingat model linier memberikan linear terbaik perkiraan fungsi harapan bersyarat non-linear.
Hal yang sama berlaku jika adalah biner juga. $Y_i$

Untuk diskusi yang lebih rinci tentang hal ini, lihatlah catatan kuliah luar biasa Kit Baum tentang topik ini. Dari slide 7 ia membahas penggunaan model probabilitas linier dalam konteks 2SLS.

Akhirnya, jika Anda benar-benar ingin menggunakan probit karena Anda ingin perkiraan yang lebih efisien maka ada cara lain yang juga disebutkan dalam Wooldridge (2010) "Analisis Ekonometrik dari Penampang dan Data Panel". Jawaban tertaut di atas menyertakannya, saya ulangi di sini untuk kelengkapan. Sebagai contoh terapan, lihat Adams et al. (2009) yang menggunakan prosedur tiga langkah yang berjalan sebagai berikut:

gunakan probit untuk mengembalikan variabel endogen pada instrumen dan variabel eksogen
gunakan nilai prediksi dari langkah sebelumnya dalam OLS tahap pertama bersama-sama dengan variabel eksogen (tetapi tanpa instrumental)
lakukan tahap kedua seperti biasa

Prosedur ini tidak cocok untuk masalah regresi terlarang tetapi berpotensi memberikan estimasi parameter bunga yang lebih efisien.

— Andy
sumber

Hai Andy, terima kasih atas balasan Anda. Apakah Anda menyarankan "inkonsistensi dari tahap pertama pendekatan OLI tahap kedua"? Bukan itu yang saya baca di tautan yang saya berikan. Pendekatan tahap pertama Probit / OLS tahap kedua dikatakan konsisten.

— Vincent

Bukan itu yang dikatakan oleh post Statalist. Jika Anda melihat bagian "metode dan rumus" untuk perintah treatreg (yang sekarang disebut etregress) dalam dokumentasi, Anda akan melihat bahwa penaksir 2 langkah bukanlah 2SLS dengan tahap pertama probit / OLS tahap kedua. Sebaliknya, probit pertama kali digunakan untuk mendapatkan rasio bahaya yang kemudian digunakan dalam regresi OLS untuk mendapatkan perkiraan yang konsisten.

— Andy

Terima kasih, Andy. Semakin menarik. Sepertinya meniru 2SLS dengan model probit pada tahap 1 tidak diterima. Saya akan membaca "melarang regresi" untuk alasan terapeutik. By the way, saya mencoba simulasi menggunakan SAS dan hasilnya tidak terlihat buruk untuk 2SLS dengan probit 1st / ols 2nd.

— Vincent

Saya memposting kode dalam pertanyaan utama dan akan senang mendengar komentar Anda. Terima kasih!

— Vincent