Ada pertanyaan serupa beberapa hari yang lalu yang memiliki referensi yang relevan:
- Belloni, A., Chernozhukov, V., dan Hansen, C. (2014) "Inferensi pada Efek Perawatan setelah Seleksi antara Kontrol Dimensi Tinggi", Review of Economic Studies, 81 (2), hlm. 608-50 ( tautan )
Setidaknya bagi saya makalah ini cukup sulit dibaca karena bukti di balik ini relatif sederhana cukup rumit. Ketika Anda tertarik memperkirakan model seperti
ysaya= α Tsaya+ X′sayaβ+ ϵsaya
di mana adalah hasil Anda, T i adalah beberapa efek pengobatan yang menarik, dan X i adalah vektor kontrol potensial. Parameter target adalah α . Dengan asumsi bahwa sebagian besar variasi dalam hasil Anda dijelaskan oleh pengobatan dan serangkaian kontrol yang jarang, Belloni et al. (2014) mengembangkan metode seleksi double-robust yang memberikan estimasi titik yang benar dan interval kepercayaan yang valid. Asumsi sparsity ini penting.ysayaTsayaXsayaα
Xsayaysaya
- ysayaXsaya
- TsayaXsaya
- ysayaTsaya
Mereka memberikan bukti mengapa ini bekerja dan mengapa Anda mendapatkan interval kepercayaan yang benar, dll. Dari metode ini. Mereka juga menunjukkan bahwa jika Anda hanya melakukan seleksi LASSO pada regresi di atas dan kemudian regresi hasil pada pengobatan dan variabel yang dipilih Anda mendapatkan perkiraan titik yang salah dan interval kepercayaan palsu, seperti yang sudah dikatakan Björn.
Tujuan untuk melakukan ini ada dua: membandingkan model awal Anda, di mana pemilihan variabel dipandu oleh intuisi atau teori, ke model seleksi ganda-kuat memberi Anda gambaran tentang seberapa bagus model pertama Anda. Mungkin model pertama Anda lupa beberapa istilah kuadrat atau interaksi penting dan karenanya menderita bentuk fungsional yang salah ditentukan atau variabel dihilangkan. Kedua, Belloni et al. (2014) metode dapat meningkatkan inferensi pada parameter target Anda karena regressor redundan dihukum dalam prosedur mereka.