Definisi matematis kausalitas

9

Biarkan dan menjadi variabel acak. adalah mean bersyarat dari diberikan . Kami mengatakan tidak terkait dengan jika tidak bergantung pada , yang berarti sama dengan . Sekarang, mari kita ikuti definisi kausalitas ini sebentar. Menurut hukum ekspektasi berulang, . Ini berarti bahwa jika tidak bergantung pada , jika itu sama dengan , maka . $Y$ $X$ $E(Y|X)$ $Y$ $X$ $Y$ $X$ $E(Y|X)$ $X$ $E(Y)$ $E(XE(Y|X)) = E(E(XY|X)) = E(XY)$ $E(Y|X)$ $X$ $E(Y)$ $E(X)E(Y) = E(XY)$

Dengan kata lain:

Jika dan tidak terkait secara kausal, maka dan tidak berkorelasi! - Ini tidak masuk akal dan saya tahu ini pasti salah. Apakah saya salah mendefinisikan kausalitas? Apa yang telah saya lakukan salah? $X$ $Y$ $X$ $Y$

Dalam ekonometrika, kita biasanya mengasumsikan . Jadi setara dengan . Logikanya juga berlaku dalam skenario khusus ini. $E(Y|X) = b_0 + b_1X$ $E(Y|X) = E(Y)$ $b_1 = 0$

econometrics causality conditional-expectation

— Kristen
sumber

2

Anda mengatakan bahwa . Saya percaya ini salah. E (Y | X) adalah konstanta. Oleh karena itu, sama dengan . Poin lain, berasal dari model regresi linier sederhana.

E (X E (Y | X)) = E (E (X Y | X)) = E (X Y)

$E(XE(Y|X))=E(E(XY|X))=E(XY)$

E (X E (Y | X))

$E(XE(Y|X))$

E (Y | X) E (X)

$E(Y|X)E(X)$

E (Y | X) = b 0 + b 1 * X

$E(Y|X)=b0+b1*X$

— Budhapest

Misalkan E (Y | X) = b, di mana b adalah konstanta. Kemudian ambillah harapan kedua belah pihak. Seseorang menemukan bahwa E (E (Y | X)) = E (b) = b. Berdasarkan hukum ekspektasi berulang, E (E (Y | X)) = E (Y). Karena itu, jika E (Y | X) konstan, itu harus sama dengan E (Y).

— Christian

Jika E (Y / X) = b, itu menyiratkan Y tidak bergantung pada X, dan E (Y) = b, Anda bingung sendiri.

— SAAN

Saya tidak mengerti mengapa "ini tidak masuk akal". Anda mulai dengan definisi kausalitas yang menurut saya setara dengan definisi independensi dalam statistik. Dan variabel independen memiliki nol kovarians, di mana ceritanya?

— Januari

Januari, tidak, mereka bukan hal yang sama! X dan Y bersifat independen jika faktor distribusi gabungan menjadi produk marginal, dan ini jelas bukan hal yang sama. Saya tidak mengerti apa maksud Anda? Azeem, selain menyatakan kembali apa yang saya katakan sebelumnya, apakah Anda punya sesuatu untuk berkontribusi? Alih-alih mengatakan saya salah, bisakah Anda menjelaskan MENGAPA saya salah?

— Christian

18

Anda salah mendefinisikan kausalitas, ya. Mungkin, Anda telah mendengar ungkapan "korelasi bukan sebab-akibat." Anda pada dasarnya mendefinisikan kausalitas sebagai korelasi. Masalahnya lebih buruk dari itu. Kausalitas bukanlah konsep statistik atau probabilistik sama sekali, setidaknya karena topik-topik tersebut biasanya diajarkan. Tidak ada definisi statistik atau probabilitas kausalitas: tidak ada yang melibatkan ekspektasi kondisional atau distribusi kondisional atau semacamnya. Sulit untuk mengambil fakta ini dari kursus statistik atau ekonometrika.

Sayangnya, kita cenderung melakukan pekerjaan yang lebih baik dengan mengatakan kausalitas bukan dari kausalitas. Kausalitas selalu dan di mana-mana berasal dari teori, dari alasan apriori, dari asumsi. Anda menyebutkan ekonometrik. Jika Anda telah diajarkan variabel instrumental secara kompeten, maka Anda tahu bahwa efek kausal hanya dapat diukur jika Anda memiliki "pembatasan pengecualian." Dan Anda tahu bahwa pembatasan eksklusi selalu berasal dari teori.

Tapi kamu bilang kamu ingin matematika. Orang yang ingin Anda baca adalah Judea Pearl . Ini bukan matematika yang mudah, dan matematika kadang-kadang mengembara ke dalam filsafat, tetapi itu karena kausalitas adalah subjek yang sulit. Ini adalah halaman dengan lebih banyak tautan pada subjek. Ini adalah buku online gratis yang baru saya temui. Akhirnya, inilah pertanyaan sebelumnya di mana saya memberikan jawaban yang mungkin berguna bagi Anda.

— Tagihan
sumber

Terima kasih. Saya akan membaca karyanya dan kembali kepada Anda ketika saya punya waktu.

— Christian

4

Jawaban yang sangat bagus. Buku Morgan & Winship sedikit lebih mudah daripada Pearl, dengan fokus pada masalah ilmu sosial.

— Dimitriy V. Masterov

8

Kami mengatakan tidak terkait dengan jika tidak bergantung pada , yang berarti sama dengan . $Y$ $X$ $E(Y|X)$ $X$ $E(Y)$

Ini salah. Hubungan sebab akibat adalah tentang dependensi fungsional / struktural, bukan dependensi statistik / asosiasional. Anda harus melihatnya di sini.

Apakah saya salah mendefinisikan kausalitas? Apa yang telah saya lakukan salah?

Ya, Anda salah mendefinisikannya, Anda dapat memeriksa buku inferensial kausal / referensi di sini . Lebih formal, dalam model persamaan struktural efek kausal pada distribusi , yang dapat kita tunjukkan dengan --- yaitu, bagaimana mengubah mempengaruhi distribusi - - didefinisikan secara matematis sebagai distribusi probabilitas yang diinduksi oleh model persamaan struktural yang dimodifikasi di mana persamaan untuk disubstitusi untuk . $X$ $Y$ $P(Y|do(X = x))$ $X$ $Y$ $X$ $X = x$

Misalnya, anggaplah model kausal Anda didefinisikan oleh persamaan struktural berikut:

U = ϵ_{u} X = f (U, ϵ_{x}) Y = g (X, U, ϵ_{y})

$U = \epsilon_u\\ X = f(U, \epsilon_x)\\ Y = g(X,U, \epsilon_y)$

Dimana gangguan tersebut saling independen dan memiliki beberapa distribusi probabilitas. Ini sesuai dengan DAG:

$\hskip2in$

Maka adalah distribusi probabilitas diinduksi oleh persamaan struktural yang dimodifikasi: $P(Y|do(X = x))$ $Y$

U = ϵ_{u} X = x Y = g (X, U, ϵ_{y})

$U = \epsilon_u\\ X = x\\ Y = g(X, U, \epsilon_y)$

Yang sesuai dengan DAG yang dimutilasi:

$\hskip2in$

Efek kausal rata-rata hanyalah ekspektasi menggunakan kausal cdf . $Y$ $P(Y|do(X=x))$

E [Y | d o (X = x)] = \int Y d P (Y | d o (X = x))

$E[Y|do(X =x)] = \int Y dP(Y|do(X = x))$

Ini adalah definisi matematis, apakah Anda dapat mengidentifikasi efek dengan data pengamatan tergantung pada apakah Anda dapat mengekspresikan kembali dalam hal distribusi pengamatan tanpa operator . $P(Y|do(X=x))$ $do()$

— Carlos Cinelli
sumber

3

Contoh Balik

Masalahnya tampaknya tidak berarti independensi (kondisi di mana ) menyiratkan bahwa dan tidak berkorelasi. Jika dan tidak berkorelasi, secara umum tidak benar bahwa mereka berarti independen. Jadi sejauh ini sepertinya tidak bermasalah. $E[Y|X] = E[Y]$ $Y$ $X$ $X$ $Y$

Namun, misalkan Anda memiliki hubungan (kita dapat menyebutnya kausal) didefinisikan sebagai , di mana didistribusikan dengan distribusi normal standar dan didistribusikan dengan distribusi Rademacher sehingga atau , masing-masing dengan probabilitas ( lihat artikel Wikipedia ini ). Kemudian perhatikan bahwa . Di bawah definisi Anda, hubungan ini tidak akan causa meskipun jelas tergantung pada . $Y = WX$ $X$ $W$ $W = 1$ $-1$ $1/2$ $E[Y|X] = E[Y]$ $Y$ $X$

Contoh Cara Berpikir Formal Tentang Kausalitas

Untuk memberi Anda mungkin cara yang lebih jelas dan lebih matematis untuk melihat kausalitas, ambil contoh berikut. (Saya meminjam contoh ini dari buku "Mostly Harmless Econometrics.") Misalkan Anda ingin menganalisis efek rawat inap terhadap kesehatan. Tentukan sebagai ukuran kesehatan individu dan untuk menunjukkan apakah individu tersebut dirawat di rumah sakit atau tidak. Dalam upaya pertama kami, anggaplah kita melihat perbedaan rata-rata kesehatan kedua jenis individu: $Y_i$ $i$ $D_i \in \{0,1\}$

E [Y_{i} | D_{i} = 1] - E [Y_{i} | D_{i} = 0] .

$E[Y_i | D_i=1] - E[Y_i|D_i=0].$ Pada pandangan pertama pada data, Anda mungkin memperhatikan, secara intuitif, bahwa orang yang telah dirawat di rumah sakit sebenarnya memiliki kesehatan yang lebih buruk daripada mereka yang tidak. Namun, pergi ke rumah sakit tentu tidak membuat orang sakit. Sebaliknya, ada bias seleksi. Orang yang pergi ke rumah sakit adalah orang-orang yang kesehatannya lebih buruk. Jadi langkah pertama ini tidak berhasil. Mengapa? Karena kita tidak tertarik hanya pada perbedaan yang diamati , tetapi lebih pada perbedaan potensial (kita ingin tahu apa yang akan terjadi di dunia kontra faktual).

Tetapkan hasil potensial dari setiap individu sebagai berikut: adalah kesehatan individu jika dia tidak pergi ke rumah sakit, terlepas dari apakah dia benar-benar pergi atau tidak (kami ingin memikirkan kontrafaktual) dan dengan cara yang sama, adalah kesehatan individu adalah dia memang pergi. Sekarang, tulis hasil yang diamati sebenarnya dalam hal potensi, Jadi, . Sekarang, kita dapat mendefinisikan efek kausal sebagai

Potential Outcome = {\begin{cases} Y_{1, i} & if D_{i} = 1 \\ Y_{0, i} & if D_{i} = 0. \end{cases}

$\text{Potential Outcome} = \left \{ \begin{array}{ll} Y_{1,i} & \text{if } D_i = 1 \\ Y_{0,i} & \text{if } D_i = 0. \end{array} \right .$

Y_{0, i}

$Y_{0,i}$

i

$i$

Y_{1, i}

$Y_{1,i}$

Y_{i} = {\begin{cases} Y_{1, i} & if D_{i} = 1 \\ Y_{0, i} & if D_{i} = 0. \end{cases}

$Y_i = \left \{ \begin{array}{ll} Y_{1,i} & \text{if } D_i = 1 \\ Y_{0,i} & \text{if } D_i = 0. \end{array} \right.$

Y_{i} = Y_{0, i} + (Y_{1, i} - Y_{0, i}) D_{i}

$Y_i = Y_{0,i} + (Y_{1,i} - Y_{0,i}) D_i$

Y_{1, i} - Y_{0, i}

$Y_{1,i} - Y_{0,i}$ . Ini berhasil karena dari segi potensi. Sekarang, anggaplah kita kembali melihat perbedaan yang diamati dalam kesehatan rata-rata: Perhatikan bahwa istilah dapat diartikan sebagai efek pengobatan rata-rata pada yang diobati dan sebagai bias dalam seleksi. Sekarang, jika perawatan diberikan secara acak, maka kita miliki

\begin{aligned} E [Y_{i} | D_{i} = 1] - E [Y_{i} | D_{i} = 0] & = E [Y_{1, i} | D_{i} = 1] - E [Y_{0, i} | D_{i} = 1] \\ + E [Y_{0, i} | D_{i} = 1] - E [Y_{0, i} | D_{i} = 0] . \end{aligned}

$\begin{align*} E[Y_i | D_i=1] - E[Y_i|D_i=0] &= E[Y_{1,i}|D_i = 1] - E[Y_{0,i}|D_i = 1] \\ & \qquad + E[Y_{0,i}|D_i=1] - E[Y_{0,i}|D_i=0]. \end{align*}$

E [Y_{1, i} | D_{i} = 1] - E [Y_{0, i} | D_{i} = 1]

$E[Y_{1,i}|D_i = 1] - E[Y_{0,i}|D_i = 1]$

E [Y_{0, i} | D_{i} = 1] - E [Y_{0, i} | D_{i} = 0]

$E[Y_{0,i}|D_i=1] - E[Y_{0,i}|D_i=0]$

D_{i}

$D_i$

\begin{aligned} E [Y_{i} | D_{i} = 1] - E [Y_{i} | D_{i} = 0] & = E [Y_{1, i} | D_{i}] - E [Y_{0, i} | D_{i} = 0] \\ = E [Y_{1, i} | D_{i}] - E [Y_{0, i} | D_{i} = 1] \\ = E [Y_{1, i} - Y_{0, i} | D_{i} = 1] \\ = E [Y_{1, i} - Y_{0, i}], \end{aligned}

$\begin{align*} E[Y_i | D_i=1] - E[Y_i|D_i=0] &= E[Y_{1,i}|D_i] - E[Y_{0,i}|D_i=0] \\ &= E[Y_{1,i}|D_i] - E[Y_{0,i}|D_i=1] \\ &= E[Y_{1,i} - Y_{0,i}|D_i=1] \\ &= E[Y_{1,i} - Y_{0,i}], \end{align*}$ mana kita melihat bahwa adalah efek kausal rata-rata yang kami minati Ini adalah cara berpikir dasar tentang kausalitas.

E [Y_{1, i} - Y_{0, i}]

$E[Y_{1,i} - Y_{0,i}]$

— jmbejara
sumber

1

Saya telah memeriksa bukti Anda, dan saya pikir itu benar (setidaknya, saya memeriksa semua langkah untuk definisi diskrit ). Jika , maka . Juga, ini bekerja sebaliknya. $E()$ $E(Y|X) = E(Y)$ $E(X\cdot Y) = E( X )\cdot E( Y )$

Namun, saya tidak melihat di mana masalah Anda?

Jika dan adalah independen, maka mereka memiliki nol kovarians. Tapi $X$ $Y$
Jika dan memiliki nol kovarians, maka mereka tidak harus independen. $X$ $Y$

Contoh: pertimbangkan tabel berikut:

     Y
 X | -1      0      1
 --+---------------------
-1 | 0.25    0     0.25
 1 |   0    0.5      0

Nilainya adalah probabilitas, yaitu dll. Probabilitas marjinal untuk Y adalah 0,25, 0,5, 0,25, dan 0,5 dan 0,5 untuk X. $P(X=1 \wedge Y=0) = 0.5$

Mudah untuk melihat bahwa dan dan oleh karena itu , oleh karena itu menurut definisi Anda variabel tidak berhubungan secara kausal. $E(Y) = E(X) = E(X \cdot Y) = 0$ $E(Y|X=-1)=E(Y|X=1)=0$ $E(Y|X)=E(X)$

Kovarians adalah nol karena . $E(X\cdot Y) = E(X)\cdot E(Y)$

Namun, dua variabel tidak independen, karena . $P(X = 1 \wedge Y = 0 ) = 0.5 \ne 0.5 \cdot 0.5 = P(X=1)\cdot P(Y=0)$

— Januari
sumber