Saya sarankan memeriksa Mostly Harmless Econometrics - mereka memiliki penjelasan yang baik tentang ini pada tingkat intuitif.
Masalah yang Anda coba selesaikan adalah bias seleksi. Jika variabel berkorelasi dengan hasil potensial dan dengan kemungkinan menerima pengobatan, maka jika Anda menemukan bahwa hasil yang diharapkan dari pengobatan lebih baik daripada hasil yang diharapkan dari yang tidak diobati, ini mungkin menjadi temuan palsu karena yang dirawat cenderung memiliki lebih tinggi dan karena itu memiliki . Masalah muncul karena membuat berkorelasi dengan perawatan.xiy0i,y1ixy0i,y1ixy0i,y1i
Masalah ini dapat diselesaikan dengan mengendalikan . Jika kami berpikir bahwa hubungan antara hasil potensial dan variabel adalah linier, kami hanya melakukan ini dengan memasukkan dalam regresi dengan variabel dummy untuk pengobatan, dan variabel dummy berinteraksi dengan . Tentu saja, regresi linier fleksibel karena kita dapat memasukkan fungsi juga. Tetapi bagaimana jika kita tidak ingin memaksakan bentuk fungsional? Maka kita perlu menggunakan pendekatan non-parametrik: pencocokan.xxxxx
Dengan pencocokan, kami membandingkan pengamatan yang diobati dan yang tidak diobati dengan sama . Kami menyimpang dari ini dengan perkiraan efek pengobatan untuk semua nilai (atau rentang kecil nilai atau "ember") yang telah kami perlakukan dan tidak diobati. Jika kita tidak memiliki banyak nilai atau keranjang seperti itu, khususnya jika adalah vektor dimensi tinggi sehingga sulit untuk menemukan pengamatan yang dekat satu sama lain, maka sangat membantu untuk memproyeksikan ruang ini ke satu dimensi.xxxx
Inilah yang dilakukan pencocokan skor kecenderungan. Jika tidak berkorelasi dengan pengobatan yang diberikan , maka ternyata mereka juga tidak berkorelasi dengan pengobatan yang diberikan mana adalah probabilitas pengobatan yang diberikan , yaitu skor kecenderungan dari .y0i,y1ixip(xi)p(x)xx
Inilah intuisi Anda: jika kami menemukan sub sampel pengamatan dengan skor kecenderungan yang sangat mirip , maka untuk sub-sampel itu, kelompok yang dirawat dan yang tidak diobati tidak berkorelasi dengan . Setiap pengamatan sama-sama cenderung diperlakukan atau tidak diobati; ini menyiratkan bahwa setiap pengamatan yang diperlakukan sama kemungkinannya berasal dari salah satu nilai dalam sub-sampel. Karena adalah yang menentukan hasil potensial dalam model kami, ini menyiratkan bahwa, untuk sub-sampel, hasil potensialp(x)xxxy0i,y1itidak berkorelasi dengan perawatan. Kondisi ini memastikan bahwa perbedaan rata-rata sub-sampel dari hasil antara yang diobati dan yang tidak diobati adalah perkiraan yang konsisten dari efek perlakuan rata-rata pada sub-sampel ini, yaitu
E[yi|Treated,p(x)]−E[yi|Untreated,p(x)]
adalah perkiraan yang konsisten dari efek pengobatan rata-rata lokal.
Bacaan lebih lanjut:
Haruskah kita menggunakan pencocokan skor kecenderungan dalam praktik?
Pertanyaan terkait membandingkan pencocokan dan regresi