Bagaimana seseorang memverifikasi sebab-akibat?

9

Setelah kami menunjukkan bahwa dua kuantitas berkorelasi, bagaimana kita menyimpulkan bahwa hubungan itu kausal? Dan selanjutnya yang mana yang menyebabkan apa? Sekarang dalam teori kita dapat menggunakan "tugas acak" (apa pun kata yang tepat), untuk memutus ikatan kecelakaan yang mungkin ada di antara dua variabel. Tetapi dalam beberapa kasus ini tidak mungkin dilakukan. Misalnya, pertimbangkan seberapa sering seseorang merokok, diukur dalam rokok per minggu, vs harapan hidup, diukur dalam tahun. Kami dapat secara acak memilih dua kelompok orang. Buat satu kelompok merokok dan yang lain tidak. Karena tugasnya acak, ini akan memutus hubungan lain di antara mereka. Tetapi ini tentu saja tidak mungkin dilakukan karena berbagai alasan. Jadi apa sajakah teknik yang dapat digunakan?

correlation causality

— Nicolas Bourbaki
sumber

1

Melalui eksperimen yang direncanakan dengan cermat. ;-)

— StatsStudent

@StatsStudent Eksperimen apa? Ambil contoh, rokok vs usia harapan hidup. Apakah Anda benar-benar ingin melakukan percobaan itu, di bawah semacam kondisi kontrol, jika Anda pikir mereka menurunkan harapan hidup? Dengan eksperimen, mudah untuk memverifikasi sebab-akibat. Tetapi bagaimana orang melakukannya dari plot korelasi?

— Nicolas Bourbaki

@NicolasBourbaki pertanyaan Anda dimulai dengan mengasumsikan jumlah berkorelasi. Apakah ini menyiratkan bahwa kita juga mengasumsikan bahwa variabel terkait secara linear, seperti Y = A * X + B?

— cantorhead

@NicolasBourbaki One dapat menentukan

Y (t + 1) = \cos (X (t)) - 1 + n o i s e

$Y(t+1)=\cos(X(t))-1+ noise$ dan banyak yang akan memikirkannya

X

$X$ sebagai "menyebabkan"

Y

$Y$ . Di samping itu

X (t)

$X(t)$ dan

Y (t + 1)

$Y(t+1)$ tidak berkorelasi.

— kepala pelayan

@NicolasBourbaki Saya telah memberikan jawaban dengan asumsi linearitas di bawah ini dan ingin memberikan jawaban yang lebih umum tetapi itu akan menjadi diluar topik jika Anda hanya tertarik pada hubungan linear.

— kepala pelayan

5

Saya pikir ini adalah pertanyaan yang sangat bagus. Saya sering menghadapi masalah ini dan banyak memikirkannya. Saya melakukan penelitian dalam ilmu kedokteran dan gagasan dalam kedokteran adalah bahwa tidak ada yang terbukti sebagai penyebab, tidak pernah, tidak pernah, tidak pernah, sampai uji coba klinis terkontrol secara acak, lebih disukai dengan pil (atau paparan lain yang dapat triple-blinded), telah membuktikan berpengaruh pada respons bunga. Ini cukup menyedihkan, karena semua studi lain dianggap sebagai studi asosiasi, yang cenderung mengurangi dampaknya.

Hill dan Richard Doll memikirkan hal ini. Mantan kriteria yang dirumuskan Hill untuk kausalitas:

Kriteria Bradford Hill, atau dikenal sebagai kriteria Hill untuk sebab-akibat, adalah sekelompok kondisi minimal yang diperlukan untuk memberikan bukti yang memadai tentang hubungan sebab akibat antara kejadian dan konsekuensi, yang ditetapkan oleh ahli epidemiologi Inggris Sir Austin Bradford Hill (1897–1991) di 1965.

Kekuatan : Asosiasi kecil tidak berarti bahwa tidak ada efek kausal, meskipun semakin besar hubungannya, semakin besar kemungkinan bahwa itu adalah kausal. Konsistensi : Temuan konsisten yang diamati oleh orang yang berbeda di tempat yang berbeda dengan sampel yang berbeda memperkuat kemungkinan efek. Spesifisitas : Penyebab kemungkinan terjadi jika populasi yang sangat spesifik di lokasi dan penyakit tertentu tanpa penjelasan kemungkinan lain. Semakin spesifik hubungan antara faktor dan efek, semakin besar kemungkinan hubungan sebab akibat. Temporalitas : Efeknya harus terjadi setelah penyebab (dan jika ada penundaan yang diharapkan antara penyebab dan efek yang diharapkan, maka efek tersebut harus terjadi setelah penundaan itu). Gradien biologis : Paparan yang lebih luas umumnya menyebabkan insiden efek yang lebih besar. Namun, dalam beberapa kasus, keberadaan faktor tersebut dapat memicu efeknya. Dalam kasus lain, proporsi terbalik diamati: paparan yang lebih besar mengarah pada insiden yang lebih rendah. Masuk akal: Mekanisme yang masuk akal antara sebab dan akibat sangat membantu (tetapi Hill mencatat bahwa pengetahuan tentang mekanisme dibatasi oleh pengetahuan saat ini). Koherensi : Koherensi antara temuan epidemiologis dan laboratorium meningkatkan kemungkinan efek. Namun, Hill mencatat bahwa "... kurangnya bukti [laboratorium] tersebut tidak dapat membatalkan efek epidemiologis pada asosiasi". Eksperimen : "Kadang-kadang dimungkinkan untuk menarik bukti eksperimental". Analogi : Pengaruh faktor-faktor serupa dapat dipertimbangkan.

Ini dirumuskan sekitar 50 tahun yang lalu, sebelum munculnya uji coba secara acak (yang mungkin tidak menarik bagi bidang khusus Anda) tetapi perlu dicatat bahwa percobaan tidak diberi peran penting dalam kriteria Hill.

Saya ingin berpikir bahwa data pengamatan, jika dianalisis dengan metode statistik yang tepat, memang memungkinkan untuk menyimpulkan hubungan sebab akibat. (Tentu saja ini tergantung pada banyak faktor.) Tetapi di bidang saya, ketika datang ke perubahan manajemen pasien, jarang melihat pedoman yang dibentuk oleh apa pun selain uji coba acak dan pengantar pedoman sering menggarisbawahi bahwa kausalitas tertentu hanya dapat diperoleh dalam uji acak.

Sekarang saya tahu bahwa banyak dari Anda tidak akan setuju dengan saya. Saya juga tidak setuju dengan diri saya sendiri. Tapi itu mungkin menambah diskusi.

— Adam Robinsson
sumber

"(yang mungkin tidak menarik bagi bidang khusus Anda)" Minat saya adalah geometri aljabar dan aritmatika. Sejauh yang dihapus dari statistik seperti yang bisa dibayangkan. Saya hanya meminta itu sebagai rasa ingin tahu.

— Nicolas Bourbaki

2

Statistik menyediakan alat untuk mendeteksi dan memodelkan keteraturan dalam data. Proses pemodelan biasanya dipandu oleh pengetahuan materi pelajaran. Ketika model mewakili mekanisme subjek-materi, sifat statistik dari model yang diestimasi memberi tahu apakah data bertentangan dengan mekanisme yang dimodelkan. Kemudian kausalitas (atau ketiadaan) disimpulkan - dan ini dilakukan pada domain subjek-materi .

Contoh: misalkan Anda memiliki sampel acak dari dua variabel $x$ dan $y$ . Korelasi di antara mereka besar dan signifikan secara statistik.

Sejauh ini, bisa Anda katakan apakah $x$ penyebab $y$ ? Saya kira tidak.

Sekarang tambahkan pengetahuan subjek ke data.
Kasus A: variabel yang diamati adalah panjang kaki dan ukuran sepatu favorit
$\rightarrow$ orang-orang suka membeli sepatu yang sesuai dengan ukuran kaki mereka, sehingga ukuran kaki menyebabkan pilihan ukuran sepatu (tetapi tidak sebaliknya).
Kasus B: variabel yang diamati adalah tinggi dan berat orang
$\rightarrow$ orang dewasa cenderung lebih tinggi dan lebih berat daripada anak-anak, tetapi apakah itu berarti berat menyebabkan tinggi atau tinggi menyebabkan berat? Genetika, nutrisi, usia dan faktor-faktor lain menyebabkan keduanya.

— Richard Hardy
sumber

0

Pertanyaan saat ini mengasumsikan bahwa kuantitas berkorelasi, yang menyiratkan bahwa orang yang menentukan korelasi harus memiliki alasan yang baik untuk percaya bahwa variabel-variabel tersebut memiliki hubungan linier.

Granger Causality mungkin menjadi alat terbaik untuk menentukan hubungan kausal linier. Granger adalah seorang ekonom yang berbagi hadiah nobel untuk karyanya tentang Penyebab linear.

Granger menyarankan itu untuk satu set variabel $\{X_t^{(i)}\}_{i=1}^k$ untuk dianggap sebagai sebab akibat $Y_t$ , dua syarat harus berlaku:

Penyebabnya harus terjadi sebelum efek.
Penyebabnya harus berisi informasi tentang efek yang tidak tersedia.

Untuk menemukan informasi yang dibagikan, seseorang dapat menggunakan regresi (walaupun berhati-hatilah bahwa koefisien regresi yang signifikan tidak menyiratkan informasi yang dibagikan secara teori - hanya dalam praktiknya). Secara khusus, seseorang ingin membandingkan residual dengan dan tanpa variabel penyebab. Anggap variabel sebagai vektor kolom, sehingga $\mathcal{X}=[X_{t-1}^{(1)},X_{t-2}^{(1)},\ldots,X_{t-m}^{(1)},X_{t-1}^{(2)},X_{t-2}^{(2)},\ldots,X_{t-m}^{(2)},\ldots,X_{t-m}^{(k)}]^T$ juga merupakan vektor kolom, dan $\mathcal{Y}=[Y_{t-1},Y_{t-2},\ldots,Y_{t-m}]^T$ adalah vektor kolom. ( $m$ disebut urutan atau jeda waktu. Ada metode untuk memilih secara optimal $m$ , tapi saya pikir orang hanya menebak yang terbaik $m$ atau mendasarkannya pada kendala lain.) Kemudian persamaan regresi yang menarik adalah

\begin{aligned} Y_{t} = SEBUAH \cdot Y + ϵ_{t} \\ Y_{t} = {SEBUAH}^{'} \cdot [Y, X]^{T} + ϵ_{t}^{'} . \end{aligned}

$\begin{align*} Y_t=A\cdot\mathcal{Y}+\epsilon_t \\ Y_t=A'\cdot[\mathcal{Y},\mathcal{X}]^T+\epsilon'_t. \end{align*}$ Untuk menentukan apakah

X_{t - i}^{(j)}

$X_{t-i}^{(j)}$ berisi info tentang

Y_{t}

$Y_t$ orang akan melakukan uji-F pada varian

ϵ_{t}

$\epsilon_t$ dan

ϵ_{t}^{'}

$\epsilon'_t$ .

Untuk memastikan bahwa informasi tersebut tidak diperhitungkan oleh sumber lain, orang akan mengumpulkan setiap variabel lain yang dapat dipertanggungjawabkan, katakanlah $Z_t^{(1)},\ldots,Z_t^{(p)}$ , tentukan $\mathcal{Z}=[Z_{t-1}^{(1)},Z_{t-2}^{(1)},\ldots,Z_{t-m}^{(p)}]^T$ , dan lakukan regresi

\begin{aligned} Y_{t} = SEBUAH \cdot [Y, Z]^{T} + ϵ_{t} \\ Y_{t} = {SEBUAH}^{'} \cdot [Y, X, Z]^{T} + ϵ_{t}^{'} . \end{aligned}

$\begin{align*} Y_t=A\cdot[\mathcal{Y},\mathcal{Z}]^T+\epsilon_t \\ Y_t=A'\cdot[\mathcal{Y},\mathcal{X},\mathcal{Z}]^T+\epsilon'_t. \end{align*}$ dan lakukan uji-F yang sama pada residu.

Ini hanya sketsa kasar dan saya percaya bahwa banyak penulis telah memperbaiki gagasan ini.

— kepala pelayan
sumber

Selamat datang di situs ini, @cantorhead. Kami ingin (pertanyaan dan) jawaban di sini mandiri. Akan lebih baik jika Anda mencoba "untuk lebih spesifik di sini" & tidak hanya menyarankan orang Google GC.

— gung - Reinstate Monica

0

Anda tidak bisa - setidaknya tidak dalam statistik.

Maxim: Anda tidak akan pernah tahu pasti bahwa efek dari satu variabel disebabkan oleh yang lain. Alasannya: Anda tidak akan pernah tahu jika tidak ada variabel lain yang tidak Anda sadari dan data yang Anda kumpulkan tidak mungkin memberi tahu Anda.

Fakta kehidupan adalah bahwa pengumpulan data tidak selalu mencukupi ketika data statis dan fenomena itu dinamis - seperti perilaku manusia. Di sana, pengumpulan data itu sendiri dapat memunculkan hasil, seperti halnya dalam fisika partikel fakta pengamatan itu sendiri tidak dapat dihapus dari persamaan.

— Marcos
sumber