Jadi jika itu masalahnya, apakah independensi statistik secara otomatis berarti kurangnya sebab-akibat?
Tidak, dan ini contoh contoh sederhana dengan normal multivarian,
set.seed(100)
n <- 1e6
a <- 0.2
b <- 0.1
c <- 0.5
z <- rnorm(n)
x <- a*z + sqrt(1-a^2)*rnorm(n)
y <- b*x - c*z + sqrt(1- b^2 - c^2 +2*a*b*c)*rnorm(n)
cor(x, y)
Dengan grafik yang sesuai,
Di sini kita memiliki bahwa dan sedikit independen (dalam kasus normal multivariat, nol korelasi menyiratkan independensi). Ini terjadi karena jalur backdoor melalui tepat membatalkan jalur langsung dari ke , yaitu, . Jadi . Namun, secara langsung menyebabkan , dan kami memiliki , yang berbeda dari .xyzxycov(x,y)=b−a∗c=0.1−0.1=0E[Y|X=x]=E[Y]=0xyE[Y|do(X=x)]=bxE[Y]=0
Asosiasi, intervensi, dan kontrafaktual
Saya pikir ini penting untuk membuat beberapa klarifikasi di sini mengenai asosiasi, intervensi, dan kontrafaktual.
Model sebab-akibat memerlukan pernyataan tentang perilaku sistem: (i) di bawah pengamatan pasif, (ii) di bawah intervensi, serta (iii) kontrafaktual. Dan independensi pada satu level tidak harus diterjemahkan ke level lain.
Seperti yang ditunjukkan contoh di atas, kita tidak dapat memiliki hubungan antara dan , yaitu, , dan masih menjadi kasus bahwa manipulasi pada mengubah distribusi , yaitu, .XYP(Y|X)=P(Y)XYP(Y|do(x))≠P(Y)
Sekarang, kita bisa melangkah lebih jauh. Kita dapat memiliki model sebab-akibat di mana intervensi pada tidak mengubah distribusi populasi , tetapi itu tidak berarti kurangnya sebab-sebab kontrafaktual! Yaitu, meskipun , untuk setiap individu hasil mereka akan berbeda jika Anda mengubah nya . Inilah tepatnya kasus yang dijelaskan oleh user20160, serta dalam jawaban saya sebelumnya di sini.XYP(Y|do(x))=P(Y)YX
Tiga level ini membuat hierarki tugas inferensial kausal , dalam hal informasi yang diperlukan untuk menjawab pertanyaan pada masing-masing.