Perbedaan antara anak tangga dua dan tiga di Ladder of Causation

12

Dalam "Book of Why" karya Judea Pearl ia berbicara tentang apa yang ia sebut Ladder of Causation, yang pada dasarnya adalah hierarki yang terdiri dari berbagai tingkat penalaran sebab-akibat. Yang terendah berkaitan dengan pola hubungan dalam data yang diamati (misalnya, korelasi, probabilitas bersyarat, dll.), Yang berikutnya berfokus pada intervensi (apa yang terjadi jika kita dengan sengaja mengubah proses pembuatan data dalam beberapa cara yang ditentukan sebelumnya?), Dan yang ketiga adalah kontrafaktual (apa yang akan terjadi di dunia lain yang mungkin jika sesuatu telah atau belum terjadi)?

Yang tidak saya mengerti adalah bagaimana anak tangga dua dan tiga berbeda. Jika kita mengajukan pertanyaan kontrafaktual, bukankah kita hanya mengajukan pertanyaan tentang campur tangan sehingga meniadakan beberapa aspek dari dunia yang diamati?

causality

— dsaxton
sumber

Apakah ini benar-benar topik? Bertanya karena penasaran

— Firebug

5

@ Firebug adalah kausalitas pada topik? Jika Anda ingin menghitung probabilitas kontrafaktual (seperti kemungkinan bahwa obat tertentu cukup untuk kematian seseorang), Anda perlu memahami ini.

— Carlos Cinelli

5

twitter.com/yudapearl/status/1069533953223155713 !

— Tim

13

Tidak ada kontradiksi antara dunia faktual dan tindakan yang menarik di tingkat intervensi. Misalnya, merokok sampai hari ini dan dipaksa berhenti merokok mulai besok tidak bertentangan satu sama lain, meskipun Anda dapat mengatakan satu "meniadakan" yang lain. Tapi sekarang bayangkan skenario berikut. Anda tahu Joe, perokok seumur hidup yang menderita kanker paru-paru, dan Anda bertanya-tanya: bagaimana jika Joe tidak merokok selama tiga puluh tahun, akankah ia sehat hari ini? Dalam hal ini kita berhadapan dengan orang yang sama, pada saat yang sama, membayangkan skenario di mana tindakan dan hasil bertentangan langsung dengan fakta-fakta yang diketahui.

Dengan demikian, perbedaan utama intervensi dan kontrafaktual adalah bahwa, sedangkan dalam intervensi Anda bertanya apa yang akan terjadi rata-rata jika Anda melakukan suatu tindakan, dalam kontrafaktual Anda bertanya apa yang akan terjadi seandainya Anda mengambil tindakan yang berbeda dalam situasi tertentu , mengingat Anda memiliki informasi tentang apa yang sebenarnya terjadi. Perhatikan bahwa, karena Anda sudah tahu apa yang terjadi di dunia nyata, Anda perlu memperbarui informasi tentang masa lalu berdasarkan bukti yang telah Anda amati.

Kedua jenis pertanyaan ini secara matematis berbeda karena mereka memerlukan tingkat informasi yang berbeda untuk dijawab (kontrafaktual membutuhkan lebih banyak informasi untuk dijawab) dan bahkan bahasa yang lebih rumit harus diartikulasikan !.

Dengan informasi yang diperlukan untuk menjawab pertanyaan Rung 3, Anda dapat menjawab pertanyaan Rung 2, tetapi tidak sebaliknya. Lebih tepatnya, Anda tidak dapat menjawab pertanyaan kontrafaktual hanya dengan informasi intervensi. Contoh di mana bentrokan intervensi dan kontrafaktual telah diberikan di sini di CV, lihat posting ini dan posting ini . Namun, demi kelengkapan, saya akan memasukkan contoh di sini juga.

Contoh di bawah ini dapat ditemukan di Kausalitas, bagian 1.4.4.

Pertimbangkan bahwa Anda telah melakukan percobaan acak di mana pasien secara acak (50% / 50%) menjalani pengobatan ( ) dan kondisi kontrol ( ), dan pada kelompok perlakuan dan kelompok kontrol 50% pulih ( ) dan 50% meninggal ( ). Itu adalah . $x =1$ $x=0$ $y=0$ $y=1$ $P(y|x) = 0.5~~~\forall x,y$

Hasil percobaan memberi tahu Anda bahwa efek kausal rata-rata dari intervensi adalah nol. Ini adalah pertanyaan anak tangga 2, . $P(Y = 1|do(X = 1)) - P(Y=1|do(X =0) = 0$

Tetapi sekarang mari kita ajukan pertanyaan berikut: berapa persen dari pasien yang meninggal dalam perawatan akan pulih seandainya mereka tidak mengambil pengobatan? Secara matematis, Anda ingin menghitung . $P(Y_{0} = 0|X =1, Y = 1)$

Pertanyaan ini tidak dapat dijawab hanya dengan data intervensi yang Anda miliki. Buktinya sederhana: Saya dapat membuat dua model kausal berbeda yang akan memiliki distribusi intervensi yang sama, namun distribusi kontrafaktual berbeda. Keduanya disediakan di bawah ini:

Di sini, jumlah Anda untuk faktor yang tidak teramati yang menjelaskan bagaimana pasien bereaksi terhadap pengobatan. Anda dapat memikirkan faktor-faktor yang menjelaskan heterogenitas pengobatan, misalnya. Perhatikan distribusi marginal dari kedua model setuju. $U$ $P(y, x)$

Perhatikan bahwa, dalam model pertama, tidak ada yang terpengaruh oleh perawatan, sehingga persentase pasien yang meninggal dalam perawatan yang akan pulih jika mereka tidak menggunakan pengobatan adalah nol.

Namun, dalam model kedua, setiap pasien dipengaruhi oleh perawatan, dan kami memiliki campuran dua populasi di mana efek kausal rata-rata ternyata nol. Dalam contoh ini, kuantitas kontrafaktual sekarang menjadi 100% --- dalam Model 2, semua pasien yang meninggal dalam perawatan akan pulih jika mereka tidak mengambil pengobatan.

Dengan demikian, ada perbedaan yang jelas antara anak tangga 2 dan anak tangga 3. Seperti yang ditunjukkan contoh ini, Anda tidak dapat menjawab pertanyaan kontrafaktual hanya dengan informasi dan asumsi tentang intervensi. Ini diperjelas dengan tiga langkah untuk menghitung kontrafaktual:

Langkah 1 (penculikan): perbarui probabilitas faktor yang tidak teramati mengingat bukti yang diamati $P(u)$ $P(u|e)$
Langkah 2 (tindakan): melakukan tindakan dalam model (misalnya . $do(x))$
Langkah 3 (prediksi): memprediksi dalam model yang dimodifikasi. $Y$

Ini tidak akan mungkin untuk menghitung tanpa beberapa informasi fungsional tentang model kausal, atau tanpa beberapa informasi tentang variabel laten.

— Carlos Cinelli
sumber

Jawaban yang menarik! Beberapa tindak lanjut: 1) Anda mengatakan " Dengan informasi Rung 3 Anda dapat menjawab pertanyaan Rung 2, tetapi tidak sebaliknya ". Tetapi dalam contoh merokok Anda, saya tidak mengerti bagaimana mengetahui apakah Joe akan sehat jika dia tidak pernah merokok menjawab pertanyaan 'Apakah dia sehat jika dia berhenti besok setelah 30 tahun merokok'. Mereka tampak seperti pertanyaan yang berbeda, jadi saya pikir saya kehilangan sesuatu.

— mkt - Pasang kembali Monica

Juga, contoh kerja Anda selanjutnya bergantung pada 2 variabel yang tidak teramati yang didistribusikan secara tidak acak antara perlakuan dan kontrol. Tapi Anda menggambarkan ini sebagai percobaan acak - jadi bukankah ini kasus pengacakan yang buruk? Dengan pengacakan yang tepat, saya tidak melihat bagaimana Anda mendapatkan dua hasil yang berbeda kecuali saya kehilangan sesuatu yang mendasar.

— mkt - Reinstate Monica

@ mkt dari yang terakhir ke yang pertama. Variabel yang tidak diobservasi secara acak terdistorsi antara yang dirawat dan yang dikendalikan, Anda memiliki tepat 50% dari setiap kategori u di kedua kelompok. Dengan informasi yang kami maksudkan spesifikasi parsial dari model yang diperlukan untuk menjawab pertanyaan kontrafaktual secara umum, bukan jawaban untuk permintaan tertentu. Untuk menjawab pertanyaan kontrafaktual Anda memerlukan struktur kausal + beberapa informasi fungsional atau informasi distribusi variabel laten.

— Carlos Cinelli

0

Inilah jawaban yang diberikan Judea Pearl di twitter :

Pembaca bertanya: Mengapa intervensi (Rung-2) berbeda dari counterfactual (Rung-3)? Tidakkah campur tangan meniadakan beberapa aspek dari dunia yang diamati?

Ans. Intervensi berubah tetapi tidak bertentangan dengan dunia yang diamati, karena dunia sebelum dan sesudah intervensi memerlukan variabel waktu yang berbeda. Sebaliknya, "Seandainya aku sudah mati" bertentangan dengan fakta-fakta yang diketahui. Untuk diskusi terbaru, lihat diskusi ini .

Catatan: Kelompok #causalinference Harvard dan kerangka hasil potensial Rubin tidak membedakan Rung-2 dari Rung-3.

Saya percaya, ini adalah perlawanan yang mengakar secara budaya yang akan diperbaiki di masa depan. Ini berasal dari asal usul kedua kerangka kerja dalam metafora "seolah-olah acak", yang bertentangan dengan metafora "mendengarkan" fisik dari #Bookofwhy

— Benjamin Crouzier
sumber