[Berikut ini mungkin tampaknya sedikit teknis karena penggunaan persamaan tetapi terutama dibangun pada grafik panah untuk memberikan intuisi yang hanya membutuhkan pemahaman yang sangat dasar tentang OLS - jadi jangan ditolak.]
Misalkan Anda ingin memperkirakan efek kausal pada y i yang diberikan oleh koefisien estimasi untuk β , tetapi untuk beberapa alasan ada korelasi antara variabel penjelas Anda dan istilah kesalahan:xiyiβ
yi=α+βxi+↖corrϵi↗
Hal ini mungkin terjadi karena kita lupa untuk menyertakan sebuah variabel penting yang juga berkorelasi dengan . Masalah ini dikenal sebagai dihilangkan Bias variabel dan kemudian Anda β tidak akan memberikan efek kausal (lihat di sini untuk detail). Ini adalah kasus ketika Anda ingin menggunakan instrumen karena hanya dengan begitu Anda dapat menemukan efek kausal yang sebenarnya.xiβˆ
Instrumen adalah variabel baru yang tidak berkorelasi dengan ϵ i , tetapi itu berkorelasi baik dengan x i dan yang hanya memengaruhi y i hingga x i - jadi instrumen kami adalah apa yang disebut "eksogen". Seperti dalam bagan ini di sini:ziϵixiyixi
zi→xi↑ϵi→↗yi
Jadi bagaimana kita menggunakan variabel baru ini?
Mungkin Anda ingat ide tipe ANOVA di belakang regresi di mana Anda membagi variasi total variabel dependen menjadi komponen yang dijelaskan dan tidak dapat dijelaskan. Misalnya, jika Anda mundur Anda pada instrumen,xi
xitotal variation=a+πziexplained variation+ηiunexplained variation
maka Anda tahu bahwa variasi yang dijelaskan di sini adalah eksogen ke persamaan asli kami karena itu tergantung pada variabel eksogen saja. Jadi dalam hal ini, kami membagi kami x i menjadi bagian yang kita dapat mengklaim tentu eksogen (itulah bagian yang tergantung pada z i ) dan beberapa bagian dapat dijelaskan η i yang membuat semua variasi buruk yang berkorelasi dengan ε i . Sekarang kita mengambil bagian eksogen dari regresi ini, sebut saja ^ x i ,zixiziηiϵixiˆ
xi=a+πzigood variation=xˆi+ηibad variation
dan menempatkan ini dalam regresi asli kita:
yi=α+βxˆi+ϵi
Sekarang karena x i tidak berkorelasi lagi dengan ε i (ingat, kita "disaring" ini bagian dari x i dan meninggalkannya di η i ), kami secara konsisten dapat memperkirakan kami β karena instrumen telah membantu kami untuk memecahkan korelasi antara penjelasan bervariasi dan kesalahan. Ini adalah salah satu cara bagaimana Anda dapat menerapkan variabel instrumental. Metode ini sebenarnya disebut kuadrat 2-tahap, di mana regresi x i pada z i disebut "tahap pertama" dan persamaan terakhir di sini disebut "tahap kedua".xˆiϵixiηiβxizi
Dalam hal gambar asli kami (saya meninggalkan keluar untuk tidak membuat berantakan tapi ingat bahwa itu ada!), Alih-alih mengambil rute langsung tapi cacat antara x i ke y i kami mengambil langkah menengah melalui x iϵixiyixˆi
zi→xi↗→xˆi↓yi
Berkat pengalihan kecil dari jalan kami ke efek kausal ini, kami dapat secara konsisten memperkirakan dengan menggunakan instrumen. Biaya pengalihan ini adalah bahwa model variabel instrumental umumnya kurang tepat, yang berarti bahwa mereka cenderung memiliki kesalahan standar yang lebih besar.β
Bagaimana kita menemukan instrumen?
Itu bukan pertanyaan yang mudah karena Anda perlu membuat kasus yang baik untuk mengapa Anda tidak akan berkorelasi dengan ε i - ini tidak dapat diuji secara resmi karena kesalahan yang benar adalah tidak teramati. Oleh karena itu tantangan utamanya adalah untuk menghasilkan sesuatu yang dapat dianggap sebagai eksogen seperti bencana alam, perubahan kebijakan, atau kadang-kadang Anda bahkan dapat menjalankan eksperimen acak. Jawaban lain memiliki beberapa contoh yang sangat bagus untuk ini jadi saya tidak akan mengulangi bagian ini.ziϵi