Apa yang dimaksud dengan "endogenitas" dan "eksogenitas" secara substantif?


43

Saya mengerti bahwa definisi dasar endogenitas adalah bahwa tidak puas, tetapi apa artinya ini dalam pengertian dunia nyata? Saya membaca artikel Wikipedia, dengan contoh penawaran dan permintaan, mencoba memahaminya, tetapi tidak terlalu membantu. Saya telah mendengar deskripsi lain tentang endogen dan eksogen sebagai berada di dalam sistem dan berada di luar sistem dan itu masih tidak masuk akal bagi saya.

Xϵ=0

1
Ketiga jawaban di bawah ini sangat bagus (masing-masing +1). Jika Anda menginginkan sumber informasi lain, saya membahas topik ini di sini: Memperkirakan alih-alihb 1 x 1 + b 2 x 2 + b 3 x 3b1x1+b2x2b1x1+b2x2+b3x3 , & ilustrasikan dengan simulasi di R.
gung - Reinstate Monica

1
Ketika Anda memiliki endogenitas, regresi Anda tidak lagi memiliki penaksir yang dapat digunakan atau statistik uji.
Ivan

1
Saya setuju dengan @ung, dan ingin menekankan bahwa jawaban lengkap akan membahas "Dapat digunakan untuk tujuan apa "? Banyak jawaban di atas menangani pertanyaan ini dengan sangat baik.
Matthew Drury

@Matthew Menurut saya, postingan ini tidak mencoba menjawab pertanyaan "apa artinya ini dalam arti dunia nyata?" Akan menyenangkan untuk melihat penjelasannya menjadi lebih baik sehingga orang dapat menghargainya dengan lebih baik.
whuber

@whuber saya tidak tahu, ini sangat singkat sehingga saya tidak bisa mengatakannya. Tapi saya berpikir, misalnya, bahwa model yang diperkirakan dapat berguna untuk prediksi (atau hanya asosiasi) bahkan jika Anda memiliki endogenitas, jadi "tidak lagi memiliki penaksir yang dapat digunakan" tampaknya palsu tanpa klarifikasi.
Matthew Drury

Jawaban:


69

Jawaban JohnRos sangat bagus. Dalam bahasa Inggris yang sederhana, endogenitas berarti Anda salah sebabkan. Model yang Anda tulis dan perkirakan tidak menangkap dengan baik cara kerja sebab-akibat di dunia nyata. Ketika Anda menulis:

Yi=β0+β1Xi+ϵi

Anda dapat memikirkan persamaan ini dalam beberapa cara. Anda bisa menganggapnya sebagai cara yang mudah untuk memprediksi berdasarkan nilaiAnda bisa menganggapnya sebagai cara yang mudah untuk memodelkan . Dalam salah satu dari kasus-kasus ini, tidak ada yang namanya endogenitas, dan Anda tidak perlu khawatir tentang hal itu.X E { Y | X }YXE{Y|X}

Namun, Anda juga dapat menganggap persamaan tersebut sebagai perwujudan sebab akibat. Anda dapat menganggap sebagai jawaban untuk pertanyaan: "Apa yang akan terjadi pada jika saya mencapai sistem ini dan secara eksperimental meningkatkan sebesar 1?" Jika Anda ingin memikirkannya seperti itu, menggunakan OLS untuk memperkirakan jumlahnya sama dengan mengasumsikan bahwa: Y Xβ1YX

  1. YX menyebabkanY
  2. Yϵ menyebabkanY
  3. Xϵ tidak menyebabkanX
  4. XY tidak menyebabkanX
  5. Tidak ada yang menyebabkan juga menyebabkanXϵX

Kegagalan salah satu dari 3-5 umumnya akan menghasilkan , atau, tidak cukup setara, . Variabel instrumental adalah cara mengoreksi fakta bahwa Anda salah sebabkan (dengan membuat asumsi kausal yang lain). Sebuah uji coba terkontrol acak yang dilakukan dengan sempurna adalah cara untuk memaksa 3-5 menjadi benar. Jika Anda memilih secara acak, maka itu pasti bukan disebabkan oleh , , atau apa pun. Apa yang disebut "eksperimen alami" adalah upaya untuk menemukan keadaan khusus di dunia di mana 3-5 benar bahkan ketika kita tidak berpikir 3-5 biasanya benar.C o v ( X , ϵ ) 0 X Y ϵE{ϵ|X}0Cov(X,ϵ)0XYϵ

Dalam contoh JohnRos, untuk menghitung nilai upah pendidikan, Anda memerlukan interpretasi kausal dari , tetapi ada alasan bagus untuk meyakini bahwa 3 atau 5 salah.β1

Namun, kebingungan Anda bisa dimengerti. Sangat umum dalam kursus tentang model linier bagi instruktur untuk menggunakan interpretasi kausal dari saya berikan di atas sambil berpura-pura tidak memperkenalkan sebab akibat, berpura-pura bahwa "itu semua hanya statistik." Itu kebohongan pengecut, tetapi juga sangat umum. β1

Bahkan, itu adalah bagian dari fenomena yang lebih besar dalam biomedis dan ilmu sosial. Hampir selalu merupakan kasus bahwa kita mencoba untuk menentukan efek kausal pada --- itulah tujuan ilmu pengetahuan. Di sisi lain, itu juga hampir selalu terjadi bahwa ada beberapa cerita yang dapat Anda ceritakan mengarah pada kesimpulan bahwa salah satu dari 3-5 itu salah. Jadi, ada semacam ketidakjujuran yang dipraktikkan, cair, dan menyesatkan di mana kita menepis keberatan dengan mengatakan bahwa kita hanya melakukan pekerjaan asosiasional dan kemudian menyelinap kembali penafsiran kausal kembali ke tempat lain (biasanya di bagian pendahuluan dan kesimpulan dari makalah ini).YXY

Jika Anda benar-benar tertarik, pria yang akan dibaca adalah Judea Perl. James Heckman juga bagus.


5
+1 Penjelasan dan komentar yang bagus. Selamat datang di situs kami!.
whuber

2
Bisakah Anda nyatakan pekerjaan yang menurut Heckman Anda rekomendasikan, untuk mendapatkan pemahaman dasar dan solid tentang masalah ini?
Kenny LJ

Saya punya pertanyaan: bagaimana memeriksa apakah atau benar “menggunakan data Anda di tangan (alih-alih pengetahuan domain Anda) yang mungkin tidak berasal dari percobaan, yaitu , kumpulan data pengamatan ”? Saya merasa tidak ada cara untuk menguji atau hanya menggunakan data, karena tidak dapat diamati, maka apakah benar bahwa endogenitas tidak dapat diuji menggunakan data? E[ϵ|X]=0E[ϵX]=0E[ϵ|X]=0E[ϵX]=0ϵ
KevinKim

1
@KevinKim Ya. tidak dapat diuji menggunakan statistik. tidak dapat dipulihkan / diperkirakan kecuali dengan melakukan estimasi dan kemudian membuat residu. Pemulihan hanya dapat dilakukan setelah perkiraan. Pemulihan hanya benar jika estimasi dilakukan dengan benar. Estimasi hanya dilakukan dengan benar jika . Jadi melingkar. Informasi yang harus berasal dari pengetahuan substantif, non-statistik. Contoh dari ini adalah bahwa mana adalah residu OLS. Ini benar terlepas dari apakah . E{ϵ|X}=0ϵE{ϵ|X}=0E{ϵ|X}=0Cov{X,e}=0eE{ϵ|X}=0
Bill

2
@KevinKim Itu benar. Dan itu bukan hanya model linier. Itu semua statistik. Perhatikan, ketika seseorang berkata "korelasi bukan sebab-akibat" mereka tidak pernah, terus memberi tahu Anda apa itu sebab akibat. Sebab-akibat adalah teori dan hanya bisa berupa teori. Bahkan RCT (yang benar-benar --- dan tidak pernah dilakukan) tidak memberi tahu Anda penyebab tanpa teori.
Bill

18

Izinkan saya menggunakan contoh:

Katakanlah Anda ingin mengukur pengaruh (sebab-akibat) pendidikan terhadap pendapatan. Anda mengambil tahun pendidikan dan data pendapatan dan mundur satu terhadap yang lainnya. Apakah Anda memulihkan apa yang Anda inginkan? Mungkin tidak! Ini karena pendapatan juga disebabkan oleh hal-hal selain pendidikan, tetapi yang berkorelasi dengan pendidikan. Sebut mereka "skill": Kita dapat dengan aman berasumsi bahwa tahun-tahun pendidikan dipengaruhi oleh "skill", karena semakin terampil Anda, semakin mudah mendapatkan pendidikan. Jadi, jika Anda merevisi tahun-tahun pendidikan tentang pendapatan, penaksir untuk efek pendidikan menyerap efek "keterampilan" dan Anda mendapatkan perkiraan yang terlalu optimis untuk kembali ke pendidikan. Ini untuk mengatakan, efek pendidikan terhadap pendapatan adalah bias (ke atas) karena pendidikan tidak eksogen terhadap pendapatan.

Endogenitas hanya masalah jika Anda ingin memulihkan efek kausal (tidak seperti korelasi belaka). Juga- jika Anda dapat merancang percobaan, Anda dapat menjamin bahwa dengan penugasan acak. Sayangnya, ini biasanya tidak mungkin dalam ilmu sosial.Cov(X,ϵ)=0


1
Terima kasih untuk contoh dan penjelasannya. Saya masih agak tidak mengerti tentang apa arti endogenitas dan eksogenitas dalam bahasa Inggris biasa. Apa sebenarnya yang saya maksud ketika saya mengatakan bahwa suatu variabel adalah endogen atau dalam hal ini eksogen.
user25901

@ JohnRos Anda menulis "Endogenitas hanya masalah jika Anda ingin memulihkan efek kausal" maka tampaknya saya yang juga mungkin mengatakan bahwa: "eksogenitas menyiratkan hubungan sebab akibat" ... Saya tidak pernah membaca kalimat itu ... betapapun benar? Jika itu benar, sepertinya saya bahwa banyak buku teks, kadang-kadang secara implisit, menganggap inferensi kausal sebagai tujuan normal.
markowitz

@markowitz: Setiap kali Anda menyimpulkan tentang koefisien regresi, tersirat Anda menginginkan hubungan sebab akibat. Jika Anda hanya menginginkan prediksi, nilai koefisien tidak terlalu penting, asalkan prediksi itu baik. Memang benar bahwa buku teks klasik tidak membuat perbedaan ini karena sebelum tugas prediksi bukanlah "ilmu dasar" tetapi lebih banyak "rekayasa" (dan maafkan saya untuk generalisasi kasar ini)
JohnRos

Terima kasih JohnRos, izinkan saya mengajukan pertanyaan lain tentang poin terkait. Masalah estimasi bias koefisien masuk akal hanya dalam model regresi sebab-akibat sedangkan untuk tujuan prediksi pasti tidak. Itu benar? Saya menanyakan ini karena poin ini tidak jelas di mana pun.
markowitz

8

User25901 sedang mencari penjelasan langsung dan sederhana, dunia nyata apa arti istilah eksogen dan endogen. Menanggapi dengan contoh-contoh misterius atau definisi matematika tidak benar-benar menjawab pertanyaan yang diajukan.

Bagaimana cara saya memahami kedua istilah ini?

Inilah yang saya pikirkan:

Exo - eksternal, luar Endo - internal, dalam -genous - berasal dari

Exogeneous: Suatu variabel eksogen ke model jika tidak ditentukan oleh parameter dan variabel lain dalam model, tetapi diatur secara eksternal dan setiap perubahan itu berasal dari kekuatan eksternal.

Endogen: Suatu variabel bersifat endogen dalam suatu model jika setidaknya sebagian fungsi dari parameter lain dan variabel dalam suatu model.


7
Ini adalah definisi intuitif yang masuk akal, tetapi tidak perlu begitu meremehkan jawaban lain.
gung - Reinstate Monica

3
Menarik untuk etimologi dapat memberikan satu pegangan yang berguna untuk mengingat apa arti istilah teknis (itu berfungsi baik untuk saya), tetapi menggunakan etimologi untuk membenarkan mereka harus dihindari. Cukup banyak istilah (dalam statistik dan di tempat lain) hanya dipahami dengan benar melalui studi yang cermat tentang definisi matematika mereka. Memahami jawaban ini membutuhkan konsepsi yang jelas tentang penggunaan kata-kata dan frasa seperti "ditentukan oleh," "ditetapkan secara eksternal," "berubah menjadi," "kekuatan eksternal," dan "sebagian [fungsi] fungsi," tidak ada yang langsung jelas atau tidak ambigu.
whuber

6

Regresi OLS, dengan konstruksi, memberikan . Sebenarnya itu tidak benar. Ini memberikan oleh konstruksi. Perkiraan residual Anda tidak berkorelasi dengan regressor Anda, tetapi residual Anda yang diperkirakan dalam arti tertentu "salah". Xϵ=0Xϵ^=0

Jika proses menghasilkan data yang benar beroperasi oleh , dan berkorelasi dengan , maka jika Anda cocok regresi meninggalkan keluar . Tentu saja, diperkirakan residual akan berkorelasi dengan . Mereka selalu demikian, sama seperti . Itu hanya fakta matematis. Ini adalah bias variabel yang dihilangkan.Y=α+βX+γZ+noiseZXXnoise0ZXlog(ex)=x

Katakan bahwa ditugaskan secara acak. Mungkin itu adalah hari dalam seminggu orang dilahirkan. Mungkin ini adalah eksperimen yang sebenarnya. Itu adalah sesuatu berkorelasi dengan yang memprediksi . Anda kemudian dapat menggunakan keacakan untuk memprediksi , dan kemudian menggunakan diprediksi untuk menyesuaikan model untuk . IYXIXXY

Itu adalah dua tingkat kuadrat terkecil, yang hampir sama dengan IV.


Seperti yang saya mengerti bukan 2SLS satu cara untuk melakukan IV, minta maaf jika saya salah.
user25901

Kesalahan standar 2SLS salah. Saya lupa mengapa atau bagaimana, tetapi Anda mungkin akan menemukan sesuatu jika Anda google "IV 2SLS standard error". Sebagian besar paket perangkat lunak mengimplementasikan 2sls dengan metode solusinya (t (z)% *% (x)% *% t (z)% *% y
generic_user

1
Kesalahan standar 2SLS salah karena input ke tahap akhir (misalnya ) tidak mencerminkan varian sebenarnya . UK yang dikoreksi menyesuaikan untuk ini. X^X
MichaelChirico

Terima kasih. Saya baru keluar dari ekonometrik terapan ketika saya menulis ini.
generic_user

-1

Dalam regresi kami ingin menangkap dampak kuantitatif dari variabel independen (yang kami anggap eksogen dan tidak tergantung pada sesuatu yang lain) pada variabel dependen yang diidentifikasi. Kami ingin tahu apa pengaruh bersih variabel eksogen terhadap variabel dependen - artinya variabel independen harus bebas dari pengaruh variabel lain. Cara cepat untuk melihat apakah regresi menderita masalah endogenitas adalah dengan memeriksa korelasi antara variabel independen dan residu. Tapi ini hanya pemeriksaan kasar kalau tidak tes formal endogenitas perlu dilakukan.


3
Ini tidak benar. Korelasi antara residual dan variabel penjelas dari regresi adalah nol oleh konstruksi. Ini bukan tes untuk endogenitas.
Andy

@Andy saya setuju dengan Anda. Maka pertanyaan saya adalah: apakah ada cara untuk menguji endogenitas hanya menggunakan data? di mana bukan residual tetapi dari , yaitu model yang Anda yakini menghasilkan data, jadi tidak dapat diamati. Selain itu, saya merasa bahwa Amon ingin mengatakan bahwa Anda dapat memeriksa secara empiris apakah , di mana adalah residual. Jika kira-kira benar, maka Anda dapat mengklaim mungkin menangkap mean bersyarat dan karenanya, tidak ada banyak masalah endogenitas, ya Aku benar? ε y = b 0 + b 1 x + ε ε E [ e i | x ] = 0 e i E [ e i | x ] = 0 b 0 + b 1 xE[ϵX]=0ϵy=b0+b1x+ϵϵE[e^i|x]=0e^iE[e^i|x]=0b^0+b^1x
KevinKim
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.