Saya percaya jawaban satu kalimat cepat untuk pertanyaan Anda,
Kapan tepat untuk mengontrol variabel Y dan kapan tidak?
adalah "kriteria pintu belakang".
Model Kausal Struktural Judea Pearl dapat memberi tahu Anda secara pasti variabel mana yang cukup (dan bila perlu) untuk pengkondisian, untuk menyimpulkan dampak kausal dari satu variabel pada variabel lain. Yaitu, ini dijawab dengan menggunakan kriteria pintu belakang, yang dijelaskan pada halaman 19 dari makalah tinjauan ini oleh Pearl.
Peringatan utama adalah bahwa hal itu mengharuskan Anda untuk mengetahui hubungan sebab akibat antara variabel (dalam bentuk panah arah dalam grafik). Tidak ada jalan lain untuk itu. Di sinilah kesulitan dan subjektivitas yang mungkin bisa ikut bermain. Model kausal struktural Pearl hanya memungkinkan Anda untuk mengetahui bagaimana menjawab pertanyaan yang tepat diberikan model kausal (yaitu grafik berarah), yang mana set model kausal mungkin diberikan distribusi data, atau bagaimana mencari struktur kausal dengan melakukan eksperimen yang tepat. Itu tidak memberi tahu Anda bagaimana menemukan struktur kausal yang tepat hanya diberikan distribusi data. Bahkan, ia mengklaim bahwa ini tidak mungkin tanpa menggunakan pengetahuan eksternal / intuisi tentang makna variabel.
Kriteria pintu belakang dapat dinyatakan sebagai berikut:
Untuk menemukan dampak kausal pada Y , satu set simpul variabel S cukup untuk dikondisikan selama memenuhi kedua kriteria berikut:XY,S
1) Tidak ada elemen dalam merupakan turunan dari XSX
2) memblokir semua jalur "pintu belakang" antara X dan YSXY
Di sini, "pintu belakang" jalan hanyalah sebuah jalan panah yang dimulai pada dan akhir dengan panah yang menunjuk pada X . (Arah yang ditunjukkan oleh semua tanda panah lainnya tidak penting.) Dan "pemblokiran" adalah, kriteria itu sendiri yang memiliki arti khusus, yang diberikan pada halaman 11 dari tautan di atas. Ini adalah kriteria yang sama yang akan Anda baca ketika belajar tentang "pemisahan-D". Saya pribadi menemukan bahwa Bab 8 Pengenalan Pola dan Pembelajaran Mesin Bishop menjelaskan konsep pemblokiran dalam pemisahan-D yang jauh lebih baik daripada sumber Mutiara yang saya tautkan di atas. Tapi begini:YX.
Seperangkat node, memblokir jalur antara X dan Y jika memenuhi setidaknya satu dari kriteria berikut:S,XY
1) Salah satu node di jalan, yang juga di memancarkan setidaknya satu panah di jalan (yaitu panah mengarah menjauh dari node)S,
2) Sebuah simpul yang bukan di atau leluhur dari sebuah simpul di S memiliki dua panah di jalur "bertabrakan" ke arahnya (yaitu bertemu secara head-to-head)SS
Ini adalah atau kriteria, tidak seperti kriteria pintu belakang umum yang merupakan dan kriteria.
Agar lebih jelas tentang kriteria pintu belakang, apa yang dikatakannya kepada Anda adalah bahwa, untuk model sebab akibat tertentu, ketika mengkondisikan pada variabel yang cukup, Anda dapat mempelajari dampak sebab akibat dari distribusi probabilitas data. (Seperti yang kita ketahui, distribusi bersama saja tidak cukup untuk menemukan perilaku kausal karena beberapa struktur kausal dapat bertanggung jawab untuk distribusi yang sama. Inilah sebabnya mengapa model kausal diperlukan juga.) Distribusi dapat diperkirakan menggunakan statistik biasa / metode pembelajaran mesin pada data pengamatan. Jadi, selama Anda tahu bahwa struktur sebab akibat memungkinkan untuk mengkondisikan suatu variabel (atau serangkaian variabel), perkiraan dampak kausal dari satu variabel pada variabel lainnya sama baiknya dengan perkiraan distribusi data, yang Anda peroleh melalui metode statistik.
Inilah yang kami temukan ketika kami menerapkan kriteria pintu belakang untuk dua diagram Anda:
Dalam kasus juga tidak terdapat jalur back-pintu dari ke X . Jadi memang benar bahwa Y memblokir "semua" jalan belakang, karena tidak ada. Namun, pada diagram kiri, Y adalah turunan langsung X , sedangkan pada diagram kanan tidak. Oleh karena itu Y mengikuti kriteria pintu belakang pada diagram kanan, tetapi tidak ke kiri. Ini adalah hasil yang tidak mengejutkan.ZX.YYX,Y
Apa yang mengejutkan, bagaimanapun, adalah bahwa dalam diagram yang tepat, asalkan adalah gambaran lengkap, Anda tidak perlu kondisi di untuk mendapatkan dampak kausal penuh X pada Z . (Mengatakan dengan cara lain, set nol memenuhi kriteria pintu belakang, dan karenanya, cukup untuk pengkondisian.) Secara intuitif ini benar karena nilai X tidak terkait dengan Y sehingga untuk data yang cukup Anda cukup rata-rata nilai-nilai Y untuk meminggirkan efek Y pada Z . Satu keberatan untuk poin ini adalah bahwa datanya terbatas, sehingga Anda tidak memiliki distribusi yang representatifYXZXYYYZ.Nilai Y. Tetapi ingat bahwa kriteria pintu belakang mengasumsikan Anda memiliki distribusi probabilitas data. Dalam hal ini Anda analitis dapat meminggirkan Y . Marginalisasi atas kumpulan data yang terbatas hanyalah perkiraan. Juga, perhatikan bahwa inisangattidak mungkin bahwa ini adalah gambaran lengkap. Ada faktor eksternal kemungkinan bahwa dampak X . Jika faktor-faktor itu juga dikaitkan dengan Y dengan cara apa pun, maka lebih banyak pekerjaan yang harus dilakukan untuk melihat apakah Y harus dikondisikan, atau apakah itu bahkan cukup. Jika Anda menggambar panah lain yang menunjuk dari Y ke X maka Y menjadi perlu untuk dikendalikan.YY.X.YYYXY
Itu, tentu saja, adalah contoh yang sangat sederhana di mana intuisi cukup untuk mengetahui kapan dapat atau tidak dapat dikendalikan. Tapi berikut adalah beberapa contoh di mana itu tidak jelas dengan melihat diagram, dan Anda dapat menggunakan kriteria pintu belakang. Untuk diagram berikut kami meminta jika itu sudah cukup untuk mengendalikan Y ketika menentukan dampak kausal dari X pada Z .YYXZ.
Hal pertama yang harus diperhatikan adalah bahwa, dalam kedua kasus, adalah bukan keturunan X . Jadi itu melewati kriteria itu. Hal berikutnya untuk dicatat adalah bahwa, dalam kedua kasus, ada beberapa backdoor jalur dari Z ke X . Dua di diagram kiri dan tiga di kanan.YX.ZX.
Dalam diagram sebelah kiri jalan backdoor yang dan Z ← W → B ← A → X .Z←Y→XZ←W→B←A→X. memblokir jalur pertama karena merupakan simpul pemancar panah yang berada langsung di jalur tersebut. Y jugamemblokir jalur kedua karena itu bukan B , juga bukan keturunan B , yang merupakan satu-satunya panah yang bertabrakan simpul di jalan. Oleh karena itu Y adalah perangkat yang memadai untuk pengkondisian. (Catatan, tidak seperti padadiagram kananAnda, set nol tidak cukup untuk pengkondisian, karena itu tidak memblokir jalan Z ← Y → X. )YY B,B,YZ←Y→X
Dalam diagram kanan jalan backdoor adalah dua sama seperti di sebelah kiri, ditambah jalur Z←W→B→Y→X. tidakmemblokir jalur ini, karena ini adalah simpul pemancar panah di jalur. Itu juga memblokir jalan Z ← Y → X untuk alasan yang sama seperti diagram kiri. Namun, itutidakmenghalangi jalan Z ← W → B ← A → X , karena merupakan keturunan langsung dari collider simpul B . Karena itutidakcukup untuk pengkondisian.Y Z←Y→XZ←W→B←A→X,B.
Sangat tidak intuitif untuk melihat mengapa cukup untuk pengkondisian pada diagram kiri, karena variabel eksogen A dan W yang mempengaruhi masing-masing X dan Z. Namun, kira tidak ada B . Dalam hal ini, tidak akan ada hubungan palsu antara X dan Z karena variabel eksogen ini sehingga mereka tidak menjadi perhatian. Keberadaan B , bagaimanapun, mempertanyakan hal itu. Jika B diizinkan untuk mengambil nilai apa pun yang secara alami dibutuhkan, diberikan A dan WYAWXZB.XZB,BAW, itu tidak akan menjadi masalah karena tidak memiliki dampak pada variabel penting, atau variabel eksogen menentukannya. Namun, jika (atau keturunannya) dikontrol maka ia benar-benar membuat A dan W bergantung, yang menciptakan hubungan palsu antara X dan Z yang tidak kita inginkan. Seperti disebutkan dalam sumber tertaut, ini adalah contoh dari paradoks Berkson , di mana pengamatan terhadap variabel yang disebabkan oleh dua sumber independen membuat sumber-sumber itu bergantung (misalnya, hasil dua flip koin independen dirubah tergantung pada pengamatan jumlah total kepala terbalik).BAWXZ
Seperti yang saya sebutkan sebelumnya, penggunaan kriteria pintu belakang mengharuskan Anda mengetahui model kausal (yaitu diagram "benar" panah antara variabel). Tetapi Model Kausal Struktural, menurut pendapat saya, juga memberikan cara terbaik dan paling formal untuk mencari model seperti itu, atau untuk mengetahui kapan pencarian itu sia-sia. Ini juga memiliki efek samping yang indah dari istilah-istilah render seperti "pembaur", "mediasi", dan "palsu" (yang semuanya membingungkan saya) sudah usang. Cukup tunjukkan gambar itu dan saya akan memberi tahu Anda lingkaran mana yang harus dikontrol.