Apa yang bisa kita katakan tentang model pada data observasi dengan tidak adanya instrumen?

10

Sebelumnya saya telah memiliki sejumlah pertanyaan yang diajukan kepada saya terkait dengan makalah yang diterbitkan di sejumlah bidang di mana regresi (dan model terkait, seperti model panel atau GLM) digunakan pada data pengamatan (yaitu data yang tidak dihasilkan oleh eksperimen terkontrol , dalam banyak kasus - tetapi tidak selalu - data diamati dari waktu ke waktu) tetapi di mana tidak ada upaya untuk memperkenalkan variabel instrumental dibuat.

Saya telah membuat sejumlah kritik sebagai tanggapan (seperti menggambarkan masalah dengan bias ketika variabel penting mungkin hilang) tetapi karena orang lain di sini tidak diragukan lagi akan jauh lebih berpengetahuan daripada saya tentang topik ini, saya pikir saya akan bertanya:

Apa masalah / konsekuensi utama dari mencoba sampai pada kesimpulan tentang hubungan (khususnya, tetapi tidak terbatas pada kesimpulan kausal) dalam situasi seperti itu?
Dapatkah sesuatu yang berguna dilakukan dengan studi yang sesuai dengan model seperti itu tanpa adanya instrumen?
Apa saja rujukan bagus (buku atau makalah) tentang masalah-masalah dengan pemodelan seperti itu (lebih disukai dengan motivasi nonteknis yang jelas tentang konsekuensinya, karena biasanya orang-orang yang bertanya memiliki beragam latar belakang, beberapa tanpa banyak statistik) yang mungkin dirujuk oleh orang dalam mengkritik kertas? Diskusi tentang tindakan pencegahan / masalah dengan instrumen akan bermanfaat juga.

(Referensi dasar tentang variabel instrumental ada di sini , meskipun jika Anda memiliki sesuatu untuk ditambahkan di sana, itu akan sangat membantu juga.)

Menunjuk contoh-contoh praktis yang baik untuk menemukan dan menggunakan instrumen akan menjadi bonus tetapi tidak penting untuk pertanyaan ini.

[Saya mungkin akan mengarahkan orang lain ke jawaban yang baik di sini saat pertanyaan seperti itu datang kepada saya. Saya dapat menambahkan satu atau dua contoh begitu saya mendapatkannya.]

— Glen_b -Reinstate Monica
sumber

8

Jadi sebagian besar bidang saya (meskipun bukan bagian yang paling banyak saya kerjakan) berkaitan dengan hal ini - pemasangan model tipe GLM ke data pengamatan. Untuk sebagian besar, variabel instrumental jarang terjadi, baik karena kurangnya keakraban dengan teknik atau, yang penting, kurangnya instrumen yang baik. Untuk menjawab pertanyaan Anda secara berurutan:

Masalah utama adalah, tentu saja, semacam sisa perancu oleh variabel yang tidak teramati yang terkait dengan baik paparan dan hasil yang diinginkan. Versi bahasa sederhana adalah bahwa jawaban Anda mungkin salah, tetapi Anda belum tentu tahu bagaimana atau mengapa. Keputusan yang diambil atas informasi itu (seperti apakah menggunakan perawatan tertentu atau tidak, apakah hal X di lingkungan berbahaya, dll.) Adalah keputusan yang dibuat dengan menggunakan informasi yang salah.
Saya akan menegaskan bahwa jawaban untuk ini adalah ya karena, sebagian besar, studi ini mencoba untuk mendapatkan sesuatu di mana tidak ada instrumen yang baik, atau di mana pengacakan tidak mungkin. Jadi ketika sampai pada itu, alternatifnya adalah "tebak saja". Model-model ini, jika tidak ada yang lain, merupakan formalisasi dari pemikiran kita dan upaya yang solid untuk mendekati jawaban, dan lebih mudah untuk bergulat.

Misalnya, Anda dapat bertanya seberapa serius bias untuk mengubah jawaban Anda secara kualitatif (yaitu "Ya, X buruk untuk Anda ..."), dan menilai apakah menurut Anda masuk akal atau tidak ada faktor yang tidak diketahui dari kekuatan itu mengintai di luar data Anda.

Sebagai contoh, temuan bahwa infeksi HPV sangat kuat terkait dengan kanker serviks adalah temuan penting, dan kekuatan faktor yang tidak terukur yang akan bias bahwa semua jalan ke nol harus sangat kuat.

Selain itu, harus dicatat bahwa instrumen tidak memperbaiki ini - mereka hanya bekerja tanpa beberapa asosiasi yang tidak terukur juga, dan bahkan uji coba acak menderita masalah (perbedaan putus sekolah antara pengobatan dan kontrol, setiap perubahan perilaku pasca pengacakan, generalisasi ke aktual populasi target) yang juga mendapatkan sedikit glossy.

Rothman, Greenland dan Lash menulis edisi terbaru Epidemiologi Modern yang pada dasarnya adalah sebuah buku yang ditujukan untuk mencoba melakukan ini dengan cara sebaik mungkin.

— Fomite
sumber

8

Berbeda dengan pandangan dari sisi epidemiologis yang ditunjukkan oleh Fomite, variabel instrumental adalah alat penting dalam ekonomi yang diajarkan cukup awal. Alasan untuk ini adalah bahwa ada fokus besar pada upaya untuk menjawab pertanyaan kausal dalam penelitian ekonomi saat ini yang sampai pada tingkat di mana korelasi bahkan dianggap sebagai tidak menarik. Keterbatasan utama adalah bahwa ekonomi adalah bidang yang secara inheren sulit untuk melakukan percobaan acak. Jika saya ingin tahu apa efek dari kematian orang tua dini pada hasil pendidikan jangka panjang anak kebanyakan orang akan keberatan untuk melakukan ini melalui jalur kontrol acak - dan memang demikian. Ini handout dari kursus MIT menguraikan pada halaman 3-5 apa masalah lain ada dengan eksperimen.

Untuk mengatasi setiap titik secara bergantian:

Bergantung pada pertanyaan yang harus dijawab, bukan hanya variabel yang dihilangkan yang dapat membatalkan analisis pada data pengamatan tanpa menggunakan metode non-eksperimental. Masalah pemilihan, kesalahan pengukuran, kausalitas terbalik, atau simultanitas mungkin sama pentingnya. Utama masalah adalah bahwa analis data perlu menyadari keterbatasan pengaturan ini. Ini merujuk terutama pada kasus bisnis karena dalam skenario akademik ini akan terungkap dengan cepat. Kadang-kadang saya melihat analis pasar yang ingin memperkirakan elastisitas harga untuk memberi tahu klien (misalnya, seberapa banyak permintaan menurun jika kami menaikkan harga $x\%$ ), sehingga mereka memperkirakan persamaan permintaan dan benar-benar melupakan atau mengabaikan fakta bahwa permintaan dan penawaran ditentukan secara bersamaan, dan yang satu mempengaruhi yang lain. Jadi konsekuensinya jauh lebih tergantung pada kesadaran peneliti / analis data sehubungan dengan keterbatasan data daripada data itu sendiri, tetapi konsekuensi yang dihasilkan dapat berkisar dari sesuatu yang sepele hingga perluasan di mana mereka secara negatif mempengaruhi kehidupan masyarakat.
Menunjukkan korelasi kadang-kadang bisa berguna, itu hanya sangat tergantung pada pertanyaan. Ketika mencari efek kausal, itu juga cukup jika Anda memiliki eksperimen alami. Data sensus di Chili mungkin bersifat observasional tetapi jika Anda ingin tahu bagaimana gempa bumi terakhir memengaruhi pencapaian pendidikan (di mana gempa bumi bisa dikatakan eksogen) maka data pengamatan juga baik untuk menjawab pertanyaan kausal.
Pada tingkat tertentu juga dimungkinkan untuk menilai endogenitas tanpa instrumen (lihat halaman 9 dalam handout di atas, 'Memperkirakan tingkat bias variabel yang dihilangkan'). Untuk pengobatan biner non-eksperimental $D_i$ Anda dapat menghitung efek dari perawatan ini, melakukan hal yang sama untuk yang tidak dapat diobservasi dan bertanya seberapa besar pergeseran dalam unobservables harus untuk menjelaskan efek pengobatan yang diamati. Jika perubahan yang tidak teramati harus sangat besar maka kita bisa sedikit lebih percaya pada temuan kita. Referensi untuk ini adalah Altonji, Elder dan Taber (2000) .
Mungkin setiap ekonom terapan akan merekomendasikan Angrist dan Pischke (2009) "Mostly Harmless Econometrics". Meskipun buku ini terutama ditujukan untuk mahasiswa pascasarjana dan peneliti, dimungkinkan untuk melewatkan bagian matematika dan hanya mendapatkan intuisi yang juga dijelaskan dengan baik. Mereka pertama-tama memperkenalkan ide pengaturan eksperimental, kemudian cenderung untuk OLS dan keterbatasannya sehubungan dengan endogenitas dari variabel yang dihilangkan, simultan, seleksi, dll. Dan kemudian secara ekstensif mendiskusikan variabel instrumental dengan bagian contoh yang baik dari literatur yang diterapkan. Mereka juga membahas masalah dengan variabel instrumen seperti instrumen yang lemah atau menggunakan terlalu banyak dari mereka. Angrist and Krueger (2001) juga memberikan gambaran non-teknis dari variabel instrumen dan potensi jebakan, dan mereka juga memiliki tabel yang merangkum beberapa studi dan instrumen mereka.

Mungkin semua ini jauh lebih lama daripada jawaban khas di sini, tetapi pertanyaannya sangat luas. Saya hanya ingin menekankan bahwa variabel instrumental (yang seringkali sulit ditemukan) bukan satu-satunya peluru di saku kita. Ada metode non-eksperimental lain untuk mengungkap efek kausal dari data pengamatan seperti perbedaan-dalam-perbedaan, desain diskontinuitas regresi, pencocokan, atau regresi efek tetap (jika pembaur kami adalah time-invariant). Semua ini dibahas dalam Angrist dan Pischke (2009) dan dalam handout terkait di awal.

— Andy
sumber