Kapan korelasi dapat berguna tanpa sebab-akibat?


27

Pepatah hewan peliharaan dari banyak ahli statistik adalah "Korelasi tidak menyiratkan sebab-akibat." Ini memang benar, tetapi satu hal yang TIDAK TERLIHAT di sini adalah bahwa korelasi memiliki sedikit atau tidak ada nilai. Apakah ini benar? Apakah tidak berguna memiliki pengetahuan bahwa dua variabel berkorelasi?

Saya tidak bisa membayangkan itu masalahnya. Saya tidak terlalu akrab dengan analisis prediktif, tetapi tampaknya jika Xmerupakan prediktor Y, akan berguna dalam memprediksi nilai-nilai masa depan Yberdasarkan X, terlepas dari kausalitas.

Apakah saya salah dalam melihat nilai dalam korelasi? Dan jika tidak, dalam situasi apa mungkin seorang ahli statistik atau ilmuwan data menggunakan korelasi tanpa sebab-akibat?


5
Menurut pendapat saya, frasa "sebab-akibat tidak menyiratkan korelasi" sering disalahgunakan untuk menyiratkan bahwa statistik tidak harus selalu dipercaya (benar, tetapi tidak selalu karena kurangnya kausalitas). Saya menjadi sangat terganggu ketika saya melihat orang-orang menjatuhkan frasa ini sehubungan dengan mengapa analisis prediksi salah. Sebagai contoh, facebook.com/notes/mike-develin/debunking-princeton/… adalah contoh yang bagus untuk analisis yang mengerikan DAN pembobolan yang mengerikan dari analisis yang mengerikan.
Cliff AB

10
Misalnya, Anda menemukan bahwa tinggal di kota tertentu berkorelasi dengan kematian dini. Anda tidak dapat menyimpulkan bahwa tinggal di kota itu menyebabkan kematian dini, atau membuat orang pindah dari kota itu tidak akan membantu mereka hidup lebih lama. (Mungkin kota ini menarik bagi orang-orang sakit-sakitan, untuk beberapa alasan.) Tetapi jika Anda seorang aktuaris, Anda akan dibenarkan untuk ingin membebankan premi asuransi jiwa yang lebih tinggi kepada anggota kota itu - mengetahui tentang korelasi ini bisa sangat berharga untuk kamu.
Nate Eldredge

2
Lebih banyak orang meninggal di selatan Inggris, @NateEldredge. Itu karena orang pensiun di sana.
TRiG

1
Tidak adanya korelasi membawa lebih banyak makna, bisa dibilang.
Raphael

Referensi xkcd wajib: xkcd.com/552
vsz

Jawaban:


32

Korelasi (atau ukuran asosiasi lainnya) berguna untuk prediksi terlepas dari penyebabnya. Misalkan Anda mengukur hubungan yang jelas dan stabil antara dua variabel. Artinya, mengetahui tingkat satu variabel juga memberi Anda beberapa informasi tentang variabel lain yang menarik, yang dapat Anda gunakan untuk membantu memprediksi satu variabel sebagai fungsi variabel lain dan, yang paling penting, mengambil tindakan berdasarkan prediksi tersebut. . Mengambil tindakan melibatkan perubahan satu atau lebih variabel, seperti ketika membuat rekomendasi otomatis atau menggunakan beberapa intervensi medis. Tentu saja, Anda bisa membuat prediksi yang lebih baik dan bertindak lebih efektif jika Anda memiliki lebih banyak wawasan tentang hubungan langsung atau tidak langsung antara dua variabel. Wawasan ini mungkin melibatkan variabel lain, termasuk yang spasial dan temporal.


4
Korelasi tidak selalu berguna untuk prediksi. Dalam kasus penyebab terbalik, ada aspek temporal penting yang tidak selalu dapat dikendalikan. Kami mengalami ini sepanjang waktu dengan Penyakit Alzheimer. Kami terus-menerus membenturkan kepala ke dinding mencoba untuk membedakan: apakah biomarker yang kami temukan pada otak yang terkena AD menyebabkan penyakit atau disebabkan oleh penyakit?
AdamO

1
@ AdamO Saya pikir jawaban saya mencakup dasar itu dalam satu atau dua kalimat terakhir, jadi saya tidak setuju dengan Anda.
Brash Equilibrium

1
Masalah dengan kausalitas sebenarnya muncul hanya jika Anda mencoba menafsirkan model prediksi Anda. (Tentu ini yang sering kita minati dalam sains). Ketika kita melihat bahwa biomarker Aadalah prediktor yang sangat baik, sangat menggoda untuk mengklaim bahwa ini juga penyebab penyakit - Dan seperti yang disebutkan dalam komentar, sangat mudah untuk sampai pada kesimpulan yang salah. Jika kita hanya ingin membuat prediksi, misalnya memberi tahu apakah pasien memiliki penyakit atau tidak, tidak ada masalah dengan korelasi.
cel

1
Ini tidak benar dan ini hanyalah satu contoh mengapa. Jika bertindak berdasarkan prediksi Anda melibatkan perubahan variabel dan mengharapkan target juga berubah, tetapi sebenarnya tidak ada hubungan langsung atau hubungan sebab akibat berjalan sebaliknya, maka Anda akan mengambil tindakan yang salah. Dan sebelum Anda berkata, "tetapi dalam contoh itu Anda menafsirkan model," Saya katakan, "dalam skenario apa Anda TIDAK akan menarik kesimpulan bahkan dari model yang dimaksudkan untuk prediksi?" Jawaban: ketika Anda tidak menaruh kepercayaan banyak pada hubungan sebab akibat yang disiratkan oleh model Anda.
Brash Equilibrium

1
@BrashEquilibrium: Ada banyak cara untuk bertindak berdasarkan prediksi yang tidak melibatkan perubahan variabel yang digunakan untuk mendapatkan prediksi dengan cara apa pun. Tertarik mengetahui apakah toko Anda harus membeli sarung tangan wol? Mengetahui berapa banyak es krim yang telah Anda jual akhir-akhir ini (dengan tidak adanya sumber data langsung yang hipotetis, tentu saja) bisa menjadi prediktor yang baik.
Ilmari Karonen

17

Ada banyak poin bagus di sini. Biarkan saya membongkar klaim Anda bahwa "tampaknya jika Xmerupakan prediktor Y, akan berguna dalam memprediksi nilai-nilai masa depan Yberdasarkan X, terlepas dari kausalitas" sedikit. Anda benar: Jika semua yang Anda inginkan adalah dapat memprediksi Ynilai yang tidak diketahui dari nilai yang diketahui Xdan hubungan stabil yang diketahui, status kausal dari hubungan itu tidak relevan. Pertimbangkan itu:

  • Anda dapat memprediksi efek dari suatu sebab. Ini intuitif dan tidak kontroversial.
  • Anda juga dapat memprediksi penyebab dari pengetahuan tentang suatu efek. Beberapa, tetapi sangat sedikit, orang yang menderita kanker paru-paru tidak pernah merokok. Akibatnya, jika Anda mengetahui seseorang menderita kanker paru-paru, Anda dapat memperkirakan dengan keyakinan baik bahwa mereka adalah perokok, terlepas dari kenyataan bahwa merokok adalah penyebab dan kanker adalah pengaruhnya. Jika rumput di halaman basah, dan alat penyiram belum mengalir, Anda dapat memperkirakan bahwa hujan telah turun, meskipun hujan adalah penyebabnya dan rumput basah hanyalah efeknya. Dll
  • Anda juga dapat memprediksi efek yang tidak diketahui dari efek yang diketahui dari penyebab yang sama. Sebagai contoh, jika Billy dan Bobby adalah kembar identik, dan saya belum pernah bertemu Billy, tetapi saya tahu bahwa Bobby adalah 5 '10' (178 cm), saya dapat memperkirakan Billy juga 178 cm dengan kepercayaan diri yang baik, terlepas dari kenyataan bahwa tinggi Billy tidak menyebabkan tinggi badan Bobby maupun ketinggian Bobby menyebabkan tinggi badan Billy.

7
Hanya untuk memberi nama pada kategori Anda: Tiga jenis prediksi Anda disebut deduksi , penculikan , dan induksi .
Neil G

12

Mereka tidak buang air besar tentang pentingnya korelasi. Hanya saja kecenderungannya adalah menafsirkan korelasi sebagai sebab akibat.

Ambil ASI sebagai contoh sempurna. Ibu hampir selalu menginterpretasikan temuan (studi observasional) tentang menyusui sebagai saran apakah mereka benar-benar harus menyusui. Memang benar bahwa, rata-rata, bayi yang disusui cenderung menjadi orang dewasa yang lebih sehat dalam urutan usia bahkan setelah mengendalikan usia ibu dan ayah longitudinal, status sosial ekonomi, dll. Ini tidak menyiratkan bahwa menyusui sendiri bertanggung jawab atas perbedaan, meskipun mungkin sebagian memainkan peran dalam pengembangan awal regulasi nafsu makan. Hubungannya sangat kompleks dan orang dapat dengan mudah berspekulasi pada seluruh faktor mediasi yang dapat mendasari perbedaan yang diamati.

Banyak penelitian mencari asosiasi untuk menjamin pemahaman yang lebih dalam tentang apa yang terjadi. Korelasi tidak sia-sia, itu hanya beberapa langkah di bawah sebab-akibat dan orang perlu berhati-hati tentang cara melaporkan temuan untuk mencegah salah tafsir dari para pakar.


9

Anda benar bahwa korelasi berguna. Alasan mengapa model sebab-akibat lebih baik daripada model asosiasional adalah bahwa - seperti yang dikatakan Pearl - mereka adalah ramalan untuk intervensi. Dengan kata lain, mereka memungkinkan Anda untuk bernalar secara hipotesis. Sebuah model sebab-akibat menjawab pertanyaan "jika saya membuat X terjadi, apa yang akan terjadi pada Y?"

Tetapi Anda tidak selalu perlu bernalar secara hipotesis. Jika model Anda hanya akan digunakan untuk menjawab pertanyaan-pertanyaan seperti "jika saya mengamati X, apa yang saya tahu tentang Y?", Maka model asosiasi adalah semua yang Anda butuhkan.


3
Oracles For Intervention akan menjadi nama yang bagus untuk sebuah band.
Malvolio

@Malvolio: haha, ini adalah cara ringkas yang tak dapat dimaafkan untuk menggambarkan model kausal. Saya sangat suka ungkapan itu.
Neil G

4

Anda benar bahwa korelasi berguna untuk prediksi. Ini juga berguna untuk mendapatkan pemahaman yang lebih baik tentang sistem yang diteliti.

Satu kasus di mana pengetahuan tentang mekanisme sebab-akibat diperlukan adalah jika distribusi target telah dimanipulasi (misalnya beberapa variabel telah "dipaksa" untuk mengambil nilai-nilai tertentu). Sebuah model berdasarkan korelasi hanya akan berkinerja buruk, sedangkan model yang menggunakan informasi sebab-akibat harus berkinerja lebih baik.


2

Korelasi adalah alat yang berguna jika Anda memiliki model dasar yang menjelaskan hubungan sebab akibat.

Sebagai contoh jika Anda tahu bahwa menerapkan gaya pada objek memengaruhi pergerakannya, Anda dapat mengukur korelasi antara gaya dan kecepatan serta gaya dan akselerasi. Korelasi yang lebih kuat (dengan akselerasi) akan jelas dengan sendirinya.

Dalam studi observasional, korelasi dapat mengungkapkan pola umum tertentu (seperti yang dinyatakan menyusui dan kesehatan kemudian) yang mungkin memberikan dasar untuk eksplorasi ilmiah lebih lanjut melalui desain eksperimental yang tepat yang dapat mengkonfirmasi atau menolak kausalitas (misalnya mungkin bukan menyusui yang menjadi penyebabnya). konsekuensi untuk kerangka budaya tertentu).

Jadi, korelasi bisa bermanfaat, tetapi jarang bisa konklusif.


2

Seperti yang Anda nyatakan, korelasi saja memiliki banyak kegunaan, terutama prediksi.

ABAB

Sebagai contoh, semua penelitian ini menunjukkan bahwa penggunaan kopi yang berat pada warga lanjut usia berkorelasi dengan sistem kardiovaskular yang lebih sehat, dalam pikiran saya, tidak diragukan lagi termotivasi oleh orang-orang yang ingin membenarkan kebiasaan minum kopi yang berat. Namun, mengatakan minum kopi hanya berkorelasi dengan hati yang lebih sehat, dan bukan kausal, tidak menjawab pertanyaan yang menarik: apakah kita akan menjadi lebih sehat jika kita minum lebih banyak kopi atau jika kita mengurangi? Sangat frustasi untuk menemukan hasil yang sangat menarik (Kopi terkait dengan hati yang lebih sehat!) Tetapi tidak dapat menggunakan informasi itu untuk membuat keputusan (masih tidak tahu apakah Anda harus minum kopi untuk menjadi lebih sehat), dan hampir selalu ada godaan untuk menafsirkan korelasi sebagai penyebab.

Kecuali mungkin yang Anda pedulikan hanyalah judi (yaitu Anda ingin memprediksi tetapi tidak mempengaruhi).


2

Ada nilai dalam korelasi, tetapi orang harus melihat lebih banyak bukti untuk menyimpulkan sebab akibat.

Bertahun-tahun lalu, ada penelitian yang menghasilkan "kopi menyebabkan kanker." Segera setelah saya mendengar ini di berita, saya memberi tahu istri saya "korelasi yang salah." Ternyata saya benar. Populasi kopi 2-3 cangkir per hari memiliki tingkat merokok lebih tinggi daripada peminum non-kopi. Setelah pengumpul data menemukan ini, mereka menarik hasilnya.

Studi lain yang menarik sebelum booming dan bust perumahan menunjukkan rasisme ketika datang untuk memproses hipotek. Klaimnya adalah bahwa pelamar kulit hitam ditolak pada tingkat yang lebih tinggi daripada kulit putih. Tetapi penelitian lain melihat pada tingkat standar. Pemilik rumah hitam default pada tingkat yang sama sebagai putih. Jika aplikasi hitam ditahan dengan standar yang lebih tinggi, tingkat standar mereka sebenarnya akan jauh lebih rendah. Catatan: anekdot ini dibagikan oleh penulis Thomas Sowell dalam bukunya The Housing Boom and Bust

Penambangan data dapat dengan mudah menghasilkan dua set data yang menunjukkan korelasi tinggi, tetapi untuk peristiwa yang tidak mungkin terkait. Pada akhirnya, yang terbaik adalah melihat studi yang dikirim dengan mata kritis. Menemukan korelasi yang salah tidak selalu mudah, ini merupakan bakat yang didapat.


Saya senang membaca jawaban ini. Namun, tampaknya untuk mengatasi kebalikan dari pertanyaan: "Apakah tidak berguna untuk memiliki pengetahuan bahwa dua variabel berkorelasi? ... Dalam situasi apa seorang ahli statistik atau ilmuwan data menggunakan korelasi tanpa sebab-akibat?"
whuber

1
"Pemilik rumah hitam default pada tingkat yang sama dengan putih. Jika aplikasi hitam ditahan dengan standar yang lebih tinggi, tingkat default mereka sebenarnya akan jauh lebih rendah." melompat ke kesimpulan. Persisnya masalah ini; pelamar kulit hitam secara statistik akan berbeda dari pelamar kulit putih, dan jika lebih banyak orang kulit hitam berada dalam kelompok yang lebih mungkin menerima hipotek default, pelamar kulit hitam yang memiliki tingkat standar yang sama akan menunjukkan diskriminasi terhadap. Memisahkan efek perancu itu sulit.
prosfilaes

Seperti yang saya nyatakan, anekdot datang dari seorang sarjana kulit hitam yang terkenal. Dan dibutuhkan lebih dari satu paragraf untuk dibahas dalam buku yang saya rujuk.
JTP - Minta maaf kepada Monica

1

Korelasi adalah fenomena yang bisa diamati. Anda bisa mengukurnya. Anda dapat bertindak berdasarkan pengukuran tersebut. Sendiri, ini bisa bermanfaat.

Namun, jika semua yang Anda miliki adalah korelasi, Anda tidak memiliki jaminan bahwa perubahan yang Anda lakukan akan benar - benar berpengaruh (lihat grafik terkenal yang mengaitkan kenaikan iPhone ke perbudakan di luar negeri dan semacamnya). Itu hanya menunjukkan bahwa ada korelasi di sana, dan jika Anda mengubah lingkungan (dengan bertindak), korelasi itu mungkin masih ada.

Namun, ini adalah pendekatan yang sangat halus. Dalam banyak skenario kami ingin memiliki alat yang kurang halus: kausalitas. Kausalitas adalah korelasi yang digabungkan dengan klaim bahwa jika Anda mengubah lingkungan Anda dengan bertindak dengan satu atau lain cara, orang seharusnya mengharapkan korelasinya tetap ada di sana. Ini memungkinkan perencanaan jangka panjang, seperti rantai 20 atau 50 peristiwa sebab akibat secara berurutan untuk mengidentifikasi hasil yang bermanfaat. Melakukannya dengan 20 atau 50 korelasi sering meninggalkan hasil yang sangat kabur dan tidak jelas.

Sebagai contoh bagaimana mereka telah berguna di masa lalu, pertimbangkan ilmu pengetahuan barat vs. Pengobatan Tradisional Cina (TCM). Ilmu pengetahuan Barat terutama berfokus pada "Mengembangkan teori, mengisolasi tes yang dapat menunjukkan teori, menjalankan tes dan mendokumentasikan hasil." Ini dimulai dengan "mengembangkan teori," yang sangat terkait dengan kausalitas. TCM memutarnya, dimulai dengan "menyusun tes yang dapat memberikan hasil yang bermanfaat, menjalankan tes, mengidentifikasi korelasi dalam jawabannya." Fokusnya lebih pada korelasi.

Saat ini orang Barat cenderung lebih suka berpikir hampir seluruhnya dalam hal kausalitas, sehingga nilai mempelajari korelasi lebih sulit untuk dimata-matai. Namun, kami menemukannya bersembunyi di setiap sudut kehidupan kami. Dan jangan pernah lupa bahwa bahkan dalam sains barat, korelasi adalah alat penting untuk mengidentifikasi teori mana yang perlu ditelusuri!

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.