Ini adalah variasi dari model pemilihan dalam ekonometrika. Validitas estimasi hanya menggunakan sampel yang dipilih di sini tergantung pada kondisi bahwa
. Berikut adalah 's status penyakit.Pr(Yi=1∣Xi,Di=1)=Pr(Yi=1∣Xi,Di=0)Dii
Untuk memberikan perincian lebih lanjut, tentukan notasi berikut:
dan ; merujuk pada peristiwa bahwa ada dalam sampel. Selain itu, anggap tidak bergantung pada untuk kesederhanaan.π1=Pr(Di=1)π0=Pr(Di=0)Si=1iDiXi
Probabilitas untuk unit dalam sampel adalah
oleh hukum pengulangan yang diulangi. Misalkan bersyarat pada status penyakit dan kovariat lainnya , hasil
tidak tergantung pada . Hasil dari,
Yi=1i
Pr(Yi=1∣Xi,Si=1)===E(Yi∣Xi,Si=1)E{E(Yi∣Xi,Di,Si=1)∣Xi,Si=1}Pr(Di=1∣Si=1)Pr(Yi=1∣Xi,Di=1,Si=1)+Pr(Di=0∣Si=1)Pr(Yi=1∣Xi,Di=0,Si=1),
DiXiYiSiPr(Yi=1∣Xi,Si=1)=Pr(Di=1∣Si=1)Pr(Yi=1∣Xi,Di=1)+Pr(Di=0∣Si=1)Pr(Yi=1∣Xi,Di=0).
Sangat mudah untuk melihat bahwa
Di sini dan sebagaimana didefinisikan skema sampling Anda. Jadi,
Pr(Di=1∣Si=1)=π1pi1π1pi1+π0pi0 and Pr(Di=0∣Si=1)=π0pi0π1pi1+π0pi0.
pi1pi0Pr(Yi=1∣Xi,Si=1)=π1pi1π1pi1+π0pi0Pr(Yi=1∣Xi,Di=1)+π0pi0π1pi1+π0pi0Pr(Yi=1∣Xi,Di=0).
Jika , kami memiliki
dan Anda dapat menghilangkan masalah pemilihan sampel. Di sisi lain, jika ,
secara umum. Sebagai kasus tertentu, pertimbangkan model logit,
Pr(Yi=1∣Xi,Di=1)=Pr(Yi=1∣Xi,Di=0)Pr(Yi=1∣Xi,Si=1)=Pr(Yi=1∣Xi),
Pr(Yi=1∣Xi,Di=1)≠Pr(Yi=1∣Xi,Di=0)Pr(Yi=1∣Xi,Si=1)≠Pr(Yi=1∣Xi)
Pr(Yi=1∣Xi,Di=1)=eX′iα1+eX′iα and Pr(Yi=1∣Xi,Di=0)=eX′iβ1+eX′iβ.
Bahkan ketika dan konstan di , distribusi yang dihasilkan tidak akan menyimpan formasi logit. Lebih penting lagi, intepretasi parameter akan sangat berbeda. Semoga argumen di atas membantu sedikit memperjelas masalah Anda.
pi1pi0i
untuk memasukkan sebagai variabel penjelas tambahan, dan memperkirakan model berdasarkan . Untuk membenarkan validitas menggunakan , kita perlu membuktikan bahwa , yang setara dengan kondisi adalah statistik . Tanpa informasi lebih lanjut tentang proses pengambilan sampel Anda, saya tidak yakin apakah itu benar. Mari kita gunakan notasi abstrak. Variabel observabilitas dapat dilihat sebagai fungsi acak dan variabel acak lainnya, katakanlahDiPr(Yi∣Xi,Di)Pr(Yi∣Xi,Di)Pr(Yi∣Xi,Di,Si=1)=Pr(Yi∣Xi,Di)DiSiSiDiZi . Nyatakan . Jika
independen dari bersyarat pada dan , kita memiliki
oleh definisi kemerdekaan. Namun, jika tidak terlepas dari setelah dikondisikan pada dan ,
secara intuitif berisi beberapa informasi yang relevan tentang
, dan secara umum tidak diharapkan ituSi=S(Di,Zi)ZiYiXiDiPr(Yi∣Xi,Di,S(Di,Zi))=Pr(Yi∣Xi,Di)ZiYiXiDiZiYiPr(Yi∣Xi,Di,S(Di,Zi))=Pr(Yi∣Xi,Di) . Dengan demikian, dalam kasus 'bagaimanapun', ketidaktahuan pemilihan sampel bisa menyesatkan untuk inferensi. Saya tidak begitu terbiasa dengan literatur pemilihan sampel dalam ekonometrika. Saya akan merekomendasikan Bab 16 Microeconometrics: methods and applications' by Cameron
and Trivedi (especially the Roy model in that chapter). Also G. S.
Maddala's classic bookvariabel dependen dan kualitatif terbatas dalam ekonometrik 'adalah pengobatan sistematis masalah tentang pemilihan sampel dan hasil diskrit.