Jawaban:
Ini bukan paradoks per se , tetapi ini adalah komentar yang membingungkan, setidaknya pada awalnya.
Selama Perang Dunia II, Abraham Wald adalah ahli statistik untuk pemerintah AS. Dia melihat para pembom yang kembali dari misi dan menganalisis pola "luka" peluru di pesawat. Dia merekomendasikan bahwa Angkatan Laut memperkuat daerah-daerah di mana pesawat tidak mengalami kerusakan.
Mengapa? Kami memiliki efek seleksi di tempat kerja. Sampel ini menunjukkan bahwa kerusakan yang ditimbulkan di daerah yang diamati dapat bertahan. Entah pesawat tidak pernah menabrak di daerah yang tidak tersentuh, proposisi yang tidak mungkin, atau serangan ke bagian-bagian itu mematikan. Kami peduli dengan pesawat yang jatuh, bukan hanya yang kembali. Mereka yang jatuh kemungkinan menderita serangan di tempat yang tak tersentuh pada mereka yang selamat.
Untuk salinan memorandum aslinya, lihat di sini . Untuk aplikasi yang lebih modern, lihat posting blog Scientific American ini .
Memperluas tema, menurut posting blog ini , selama Perang Dunia I, pengenalan helm timah menyebabkan luka kepala lebih dari topi kain standar. Apakah helm baru itu lebih buruk untuk prajurit? Tidak; meskipun cedera lebih tinggi, kematian lebih rendah.
Contoh lain adalah kekeliruan ekologis .
Contoh
Misalkan kita mencari hubungan antara pemberian suara dan pendapatan dengan meregreskan pembagian suara untuk Senator Obama saat itu dengan median pendapatan negara (dalam ribuan). Kami mendapatkan intersepsi sekitar 20 dan koefisien kemiringan 0,61.
Banyak yang akan menafsirkan hasil ini dengan mengatakan bahwa orang yang berpenghasilan lebih tinggi cenderung memilih Demokrat; memang, buku pers populer telah membuat argumen ini.
Tapi tunggu, saya pikir orang kaya lebih cenderung menjadi Republikan? Mereka.
Apa yang sebenarnya dikatakan oleh regresi ini adalah bahwa negara - negara kaya lebih cenderung memilih Demokrat dan negara - negara miskin lebih cenderung memilih Partai Republik. Dalam negara tertentu , orang kaya lebih cenderung memilih Partai Republik dan orang miskin lebih cenderung memilih Demokrat. Lihat karya Andrew Gelman dan rekan penulisnya .
Tanpa asumsi lebih lanjut, kami tidak dapat menggunakan data tingkat grup (agregat) untuk membuat kesimpulan tentang perilaku tingkat individu. Ini adalah kekeliruan ekologis. Data tingkat grup hanya dapat memberi tahu kami tentang perilaku tingkat grup.
Untuk membuat lompatan ke kesimpulan tingkat individu, kita memerlukan asumsi keteguhan . Di sini, pilihan suara individu paling tidak bervariasi secara sistematis dengan pendapatan rata-rata negara; seseorang yang menghasilkan $ X di negara kaya harus sama-sama memilih Demokrat sebagai seseorang yang mendapatkan $ X di negara miskin. Tetapi orang-orang di Connecticut, di semua tingkat pendapatan, lebih cenderung memilih Demokrat daripada orang-orang di Mississippi pada tingkat pendapatan yang sama . Oleh karena itu, asumsi konsistensi dilanggar dan kita mengarah pada kesimpulan yang salah (dibodohi oleh bias agregasi ).
Topik ini adalah hobi yang sering dilakukan oleh David Freedman ; lihat tulisan ini , misalnya. Dalam makalah itu, Freedman menyediakan sarana untuk mengikat probabilitas tingkat individu menggunakan data grup.
Membandingkan dengan paradoks Simpson
Di tempat lain dalam CW ini, @Michelle mengusulkan paradoks Simpson sebagai contoh yang baik, sebagaimana adanya. Paradoks Simpson dan kekeliruan ekologis terkait erat, namun berbeda. Dua contoh berbeda dalam sifat data yang diberikan dan analisis yang digunakan.
Formulasi standar dari paradoks Simpson adalah tabel dua arah. Dalam contoh kami di sini, anggaplah bahwa kami memiliki data individual dan kami mengklasifikasikan setiap individu sebagai berpenghasilan tinggi atau rendah. Kami akan mendapatkan tabel kontingensi 2x2 pendapatan-per-suara dari total. Kita akan melihat bahwa bagian yang lebih tinggi dari orang-orang berpenghasilan tinggi memilih Demokrat relatif dibandingkan dengan orang-orang berpenghasilan rendah. Jika kita membuat tabel kontingensi untuk setiap negara bagian, namun, kita akan melihat pola yang berlawanan.
Dalam kekeliruan ekologis, kita tidak menciutkan pendapatan menjadi variabel dikotomis (atau mungkin multikotomi). Untuk mendapatkan tingkat negara bagian, kita mendapatkan rata-rata (atau median) pendapatan negara dan bagian suara negara bagian dan menjalankan regresi dan menemukan bahwa negara-negara berpendapatan tinggi lebih cenderung memilih Demokrat. Jika kami menyimpan data tingkat individu dan menjalankan regresi secara terpisah oleh negara, kami akan menemukan efek sebaliknya.
Singkatnya, perbedaannya adalah:
Pengamatan umum
@NeilG berkomentar bahwa ini sepertinya mengatakan bahwa Anda tidak dapat memiliki pilihan pada variabel bias yang tidak dapat diobservasi / dihilangkan dalam regresi Anda. Tepat sekali! Setidaknya dalam konteks regresi, saya pikir hampir semua "paradoks" hanyalah kasus khusus dari variabel yang dihilangkan yang bias.
Bias seleksi (lihat tanggapan saya yang lain tentang CW ini) dapat dikontrol dengan memasukkan variabel yang mendorong pemilihan. Tentu saja, variabel-variabel ini biasanya tidak teramati, mendorong masalah / paradoks. Regresi palsu (respons saya yang lain) dapat diatasi dengan menambahkan tren waktu. Kasus-kasus ini pada dasarnya mengatakan bahwa Anda memiliki cukup data, tetapi membutuhkan lebih banyak prediktor.
Dalam kasus kekeliruan ekologis, memang benar, Anda membutuhkan lebih banyak prediktor (di sini, lereng dan penyadapan khusus negara bagian). Tetapi Anda membutuhkan lebih banyak pengamatan, observasi individu, dan bukannya level kelompok, untuk memperkirakan hubungan-hubungan ini.
(Kebetulan, jika Anda memiliki seleksi ekstrim di mana variabel seleksi membagi perawatan dan kontrol dengan sempurna, seperti dalam contoh WWII yang saya berikan, Anda mungkin memerlukan lebih banyak data untuk memperkirakan regresi juga; di sana, pesawat jatuh.)
Kontribusi saya adalah paradoks Simpson karena:
bisa sangat sulit untuk menjelaskan mengapa temuan itu adalah cara mereka menempatkan orang dalam bahasa Inggris yang sederhana.
versi paradoks: signifikansi statistik dari suatu hasil tampak berbeda tergantung pada bagaimana data dipartisi. Penyebabnya sering muncul karena variabel perancu.
Garis besar paradoks yang baik ada di sini .
The Sleeping Beauty Masalah .
Ini adalah penemuan terbaru; itu banyak dibahas dalam satu set kecil jurnal filsafat selama dekade terakhir. Ada pendukung setia untuk dua jawaban yang sangat berbeda ("Halfers" dan "Thirders"). Ini menimbulkan pertanyaan tentang sifat kepercayaan, probabilitas, dan pengondisian, dan telah menyebabkan orang memohon penafsiran mekanis "banyak dunia" mekanika-kuantum (di antara hal-hal aneh lainnya).
Ini pernyataan dari Wikipedia:
Sleeping Beauty relawan untuk menjalani percobaan berikut dan diberitahu semua detail berikut. Pada hari Minggu dia ditidurkan. Koin yang adil kemudian dilemparkan untuk menentukan prosedur eksperimental mana yang dilakukan. Jika koin muncul di kepala, Kecantikan dibangunkan dan diwawancarai pada hari Senin, dan kemudian eksperimen berakhir. Jika koin itu muncul, dia dibangunkan dan diwawancarai pada hari Senin dan Selasa. Tetapi ketika dia ditidurkan lagi pada hari Senin, dia diberi dosis obat penginduksi amnesia yang memastikan dia tidak dapat mengingat kebangkitannya sebelumnya. Dalam hal ini, percobaan berakhir setelah dia diwawancarai pada hari Selasa.
Kapan pun kecantikan Tidur terbangun dan diwawancarai, dia ditanya, "Apa kepercayaan Anda sekarang untuk proposisi bahwa koin itu mendarat di kepala?"
Posisi Thirder adalah bahwa SB harus menjawab "1/3" (ini adalah perhitungan Teorema Bayes yang sederhana) dan posisi Halfer adalah bahwa ia harus mengatakan "1/2" (karena itu kemungkinan yang benar untuk koin yang adil, jelas! ). IMHO, seluruh perdebatan bertumpu pada pemahaman yang terbatas tentang probabilitas, tetapi bukankah itu inti dari mengeksplorasi paradoks yang tampak?
(Ilustrasi dari Project Gutenberg .)
Meskipun ini bukan tempat untuk mencoba menyelesaikan paradoks - hanya untuk menyatakannya - saya tidak ingin membiarkan orang menggantung dan saya yakin sebagian besar pembaca halaman ini tidak ingin membaca penjelasan filosofis. Kita dapat mengambil tip dari ET Jaynes , yang menggantikan pertanyaan “bagaimana kita dapat membangun model matematika dari akal sehat manusia” —yang merupakan sesuatu yang kita butuhkan untuk memikirkan masalah Sleeping Beauty — dengan “Bagaimana kita dapat membangun sebuah mesin yang akan melakukan penalaran masuk akal yang bermanfaat, mengikuti prinsip-prinsip yang jelas yang mengekspresikan akal sehat yang ideal? ”Jadi, jika Anda suka, gantikan SB dengan robot pemikir Jaynes. Anda bisa mengkloningrobot ini (alih-alih memberikan obat amnesia yang fantastis) untuk bagian hari Selasa percobaan, sehingga menciptakan model yang jelas dari pengaturan SB yang dapat dianalisis secara jelas. Memodelkan ini dengan cara standar menggunakan teori keputusan statistik kemudian mengungkapkan benar-benar ada dua pertanyaan yang diajukan di sini ( apa peluang koin kepala tanah adil? Dan berapa peluang koin mendarat kepala, tergantung pada kenyataan bahwa Anda adalah klon yang dibangunkan? ). Jawabannya adalah 1/2 (dalam kasus pertama) atau 1/3 (dalam yang kedua, menggunakan Teorema Bayes). Tidak ada prinsip mekanika kuantum yang terlibat dalam solusi ini :-).
Arntzenius, Frank (2002). Refleksi tentang Kecantikan Tidur . Analisis 62.1 hal 53-62. Elga, Adam (2000). Keyakinan mencari-sendiri dan Masalah Kecantikan Tidur. Analisis 60 hal 143-7.
Franceschi, Paul (2005). Kecantikan Tidur dan Masalah Pengurangan Dunia . Pracetak.
Groisman, Berry (2007). Akhir dari mimpi buruk Sleeping Beauty .
Lewis, D (2001). Sleeping Beauty: balas ke Elga . Analisis 61.3 hal 171-6.
Papineau, David dan Victor Dura-Vila (2008). Seorang yang haus dan seorang Everettian: sebuah jawaban untuk 'Quantum Sleeping Beauty' milik Lewis .
Pust, Joel (2008). Horgan on Sleeping Beauty . Sintese 160 hal 97-101.
Vineberg, Susan (tidak bertanggal, mungkin 2003). Cautionary Tale Beauty .
Semua dapat ditemukan (atau setidaknya ditemukan beberapa tahun yang lalu) di Web.
The St.Petersburg paradoks , yang membuat Anda berpikir secara berbeda tentang konsep dan makna Nilai yang diharapkan . Intuisi (terutama untuk orang-orang dengan latar belakang statistik) dan perhitungannya memberikan hasil yang berbeda.
The Jeffreys-Lindley paradoks , yang menunjukkan bahwa dalam kondisi tertentu bawaan metode frequentist dan Bayesian pengujian hipotesis dapat memberikan jawaban sepenuhnya bertentangan. Ini benar-benar memaksa pengguna untuk berpikir tentang apa sebenarnya bentuk pengujian ini, dan untuk mempertimbangkan apakah itu yang benar-benar diinginkan. Untuk contoh terbaru lihat diskusi ini .
Ada kesalahan dua gadis yang terkenal:
Dalam keluarga dengan dua anak, apa peluangnya, jika salah satu dari anak-anak itu perempuan , maka kedua anak itu adalah perempuan?
Kebanyakan orang secara intuitif mengatakan 1/2
, tetapi jawabannya adalah 1/3
. Masalahnya, secara mendasar, adalah bahwa secara seragam memilih "satu gadis, dari semua gadis dengan satu saudara" secara acak tidak sama dengan memilih secara seragam "satu keluarga, dari semua keluarga dengan dua anak dan setidaknya satu gadis."
Yang ini cukup sederhana untuk disatukan dengan intuisi, begitu Anda memahaminya, tetapi ada versi yang lebih rumit yang lebih sulit untuk dipahami:
Dalam sebuah keluarga dengan dua anak, bagaimana kemungkinannya, jika salah satu dari anak-anak itu adalah anak laki-laki yang lahir pada hari Selasa , bahwa kedua anak itu adalah anak laki-laki? (Jawab: 13/27)
Dalam sebuah keluarga dengan dua anak, bagaimana kemungkinannya, jika salah satu dari anak-anak itu adalah seorang gadis bernama Florida , bahwa kedua anak itu adalah anak perempuan? (Jawab: sangat dekat dengan 1/2, dengan asumsi "Florida" adalah nama yang sangat langka)
Info lebih lanjut tentang semua teka-teki ini dapat ditemukan dalam jawaban ini .
(Juga: Info lebih lanjut tentang anak laki-laki yang lahir pada hari Selasa , info lebih lanjut tentang anak perempuan bernama Florida )
1/3
belum 2/3
tentu? Hanya satu dariGB, BG, GG
Maaf, tapi saya tidak bisa menahan diri (saya juga suka paradoks statistik!).
Sekali lagi, mungkin bukan paradoks per se dan contoh lain dari variabel yang dihilangkan bias.
Penyebab / regresi palsu
Setiap variabel dengan tren waktu akan dikorelasikan dengan variabel lain yang juga memiliki tren waktu. Misalnya, berat badan saya sejak lahir hingga usia 27 tahun akan sangat berkorelasi dengan berat badan Anda sejak lahir hingga usia 27 tahun. Jelas, berat badan saya tidak disebabkan oleh berat badan Anda. Jika ya, saya minta Anda pergi ke gym lebih sering.
Saat Anda melakukan analisis deret waktu, Anda harus yakin bahwa variabel Anda diam atau Anda akan mendapatkan hasil sebab-akibat palsu ini.
(Saya sepenuhnya mengakui bahwa saya menjiplak jawaban saya sendiri yang diberikan di sini .)
Salah satu favorit saya adalah masalah Monty Hall. Saya ingat belajar tentang itu di kelas statistik dasar, memberi tahu ayah saya, karena kami berdua tidak percaya saya mensimulasikan angka acak dan kami mencoba masalahnya. Yang mengherankan kami adalah benar.
Pada dasarnya masalah menyatakan bahwa jika Anda memiliki tiga pintu pada permainan, di mana satu adalah hadiah dan dua lainnya tidak ada, jika Anda memilih pintu dan kemudian diberitahu tentang dua pintu yang tersisa, salah satu dari dua itu bukan pintu hadiah dan diizinkan untuk mengubah pilihan Anda jika Anda memilih Anda harus beralih pintu Anda saat ini ke pintu yang tersisa.
Ini juga tautan ke simulasi R: LINK
Parrox Paradox:
Dari wikipdedia : "Parrondo paradoks, sebuah paradoks dalam teori permainan, telah dideskripsikan sebagai: Kombinasi strategi kehilangan menjadi strategi kemenangan. Dinamai menurut penciptanya, Juan Parrondo, yang menemukan paradoks pada tahun 1996. Deskripsi yang lebih jelas adalah :
Ada beberapa permainan, masing-masing dengan probabilitas lebih tinggi untuk kalah daripada menang, yang memungkinkan untuk membangun strategi menang dengan memainkan permainan secara bergantian.
Parrondo menyusun paradoks sehubungan dengan analisisnya tentang ratchet Brown, sebuah eksperimen pemikiran tentang mesin yang konon dapat mengekstraksi energi dari gerakan panas acak yang dipopulerkan oleh fisikawan Richard Feynman. Namun, paradoksnya menghilang ketika dianalisis dengan seksama. "
Ada juga paradoks terkait yang lebih baru yang disebut " campuran allison ," yang menunjukkan bahwa kita dapat mengambil dua seri IID dan non-berkorelasi, dan mengacaknya secara acak sehingga campuran tertentu dapat membuat seri yang dihasilkan dengan autokorelasi non-nol.
Sangat menarik bahwa Masalah Dua Anak dan Masalah Monty Hall begitu sering disebutkan bersama dalam konteks paradoks. Keduanya menggambarkan paradoks yang jelas pertama kali diilustrasikan pada tahun 1889, yang disebut Bertrand's Box Paradox, yang dapat digeneralisasi untuk mewakili keduanya. Saya menganggapnya sebagai "paradoks" yang paling menarik karena orang-orang yang sangat berpendidikan dan sangat cerdas menjawab dua masalah dengan cara yang berlawanan sehubungan dengan paradoks ini. Ini juga membandingkan dengan prinsip yang digunakan dalam permainan kartu seperti bridge, yang dikenal sebagai Prinsip Pilihan Terbatas, di mana resolusinya teruji oleh waktu.
Katakanlah Anda memiliki item yang dipilih secara acak yang akan saya sebut "kotak." Setiap kotak yang mungkin memiliki setidaknya satu dari dua sifat simetris, tetapi beberapa memiliki keduanya. Saya akan menyebut properti "emas" dan "perak." Probabilitas bahwa sebuah kotak hanya emas adalah P; dan karena propertinya simetris, P juga probabilitas bahwa sebuah kotak hanya perak. Itu membuat probabilitas bahwa sebuah kotak hanya memiliki satu properti 2P, dan probabilitas bahwa keduanya memiliki 1-2P.
Jika Anda diberi tahu bahwa sebuah kotak adalah emas, tetapi bukan apakah itu perak, Anda mungkin tergoda untuk mengatakan bahwa peluangnya hanyalah emas adalah P / (P + (1-2P)) = P / (1-P). Tetapi kemudian Anda harus menyatakan probabilitas yang sama untuk kotak satu warna jika Anda diberi tahu bahwa itu adalah perak. Dan jika probabilitas ini adalah P / (1-P) setiap kali Anda diberitahu hanya satu warna, itu harus P / (1-P) bahkan jika Anda tidak diberi tahu warna. Namun kita tahu ini 2P dari paragraf terakhir.
Paradoks yang tampak ini diselesaikan dengan mencatat bahwa jika sebuah kotak hanya memiliki satu warna, tidak ada ambiguitas tentang warna apa yang akan Anda beri tahu. Tetapi jika memiliki dua, ada pilihan tersirat. Anda harus tahu bagaimana pilihan itu dibuat untuk menjawab pertanyaan, dan itu adalah akar dari paradoks yang tampak. Jika Anda tidak diberi tahu, Anda hanya dapat mengasumsikan warna dipilih secara acak, membuat jawaban P / (P + (1-2P) / 2) = 2P. Jika Anda bersikeras P / (1-P) adalah jawabannya, Anda secara implisit mengasumsikan tidak ada kemungkinan warna lain bisa disebutkan kecuali itu adalah satu-satunya warna.
Dalam Masalah Monty Hall, analogi untuk warna tidak terlalu intuitif, tetapi P = 1/3. Jawaban berdasarkan dua pintu belum dibuka awalnya sama-sama cenderung memiliki hadiah mengasumsikan Monty Hall diperlukan untuk membuka pintu dia lakukan, bahkan jika ia punya pilihan. Jawaban itu adalah P / (1-P) = 1/2. Jawaban yang memungkinkan dia untuk memilih secara acak adalah 2P = 2/3 untuk probabilitas bahwa pergantian akan menang.
Dalam Masalah Dua Anak, warna-warna dalam analogi saya cukup baik dibandingkan dengan jenis kelamin. Dengan empat kasus, P = 1/4. Untuk menjawab pertanyaan itu, kita perlu tahu bagaimana ditentukan bahwa ada seorang gadis dalam keluarga. Jika mungkin untuk mengetahui tentang anak laki-laki dalam keluarga dengan metode itu, maka jawabannya adalah 2P = 1/2, bukan P / (1-P) = 1/3. Ini sedikit lebih rumit jika Anda mempertimbangkan nama Florida, atau "lahir pada hari Selasa," tetapi hasilnya sama. Jawabannya tepat 1/2 jika ada pilihan, dan sebagian besar pernyataan masalah menyiratkan pilihan seperti itu. Dan alasan "berubah" dari 1/3 ke 13/27, atau dari 1/3 ke "hampir 1/2," tampaknya paradoks dan tidak intuitif, adalah karena asumsi tidak ada pilihan adalah tidak intuitif.
Dalam Prinsip Pilihan Terbatas, katakan Anda kehilangan beberapa set kartu yang setara - seperti Jack, Queen, dan King dengan jenis yang sama. Peluang dimulai bahkan bahwa kartu tertentu milik lawan tertentu. Tetapi setelah lawan memainkan satu, peluangnya untuk memiliki salah satu dari yang lain berkurang karena dia bisa memainkan kartu itu jika dia memilikinya.
Saya menemukan ilustrasi grafis yang disederhanakan dari kekeliruan ekologis (di sini paradoks pemungutan suara Negara kaya / Negara miskin) membantu saya untuk memahami pada tingkat intuitif mengapa kita melihat pembalikan pola pemungutan suara ketika kita mengumpulkan populasi Negara:
Misalkan Anda memperoleh data tentang kelahiran di keluarga kerajaan dari beberapa kerajaan. Di pohon keluarga setiap kelahiran dicatat. Yang aneh tentang keluarga ini adalah bahwa orang tua berusaha untuk memiliki bayi hanya segera setelah anak laki-laki pertama lahir dan kemudian tidak memiliki anak lagi.
Jadi data Anda berpotensi terlihat mirip dengan ini:
G G B
B
G G B
G B
G G G G G G G G G B
etc.
Apakah proporsi anak laki-laki dan perempuan dalam sampel ini mencerminkan probabilitas umum melahirkan anak laki-laki (katakanlah 0,5)? Jawaban dan penjelasan dapat ditemukan di utas ini .
Ini adalah Paradox Simpson lagi tetapi 'mundur' dan juga ke depan, berasal dari buku baru Judea Pearl, Causal Inference in Statistics: A primer [^ 1]
Paradox Simpon klasik berfungsi sebagai berikut: pertimbangkan untuk mencoba memilih antara dua dokter. Anda secara otomatis memilih yang dengan hasil terbaik. Tetapi anggaplah seseorang dengan hasil terbaik memilih kasus yang paling mudah. Rekor yang lebih buruk dari yang lain adalah konsekuensi dari pekerjaan yang lebih rumit.
Sekarang siapa yang kamu pilih? Lebih baik untuk melihat hasil yang dikelompokkan berdasarkan kesulitan dan kemudian memutuskan.
Ada sisi lain dari koin (paradoks lain) yang mengatakan bahwa hasil bertingkat juga dapat membawa Anda ke pilihan yang salah.
Kali ini pertimbangkan untuk memilih menggunakan obat atau tidak. Obat ini memiliki efek samping toksik, tetapi mekanisme tindakan terapeutiknya adalah dengan menurunkan tekanan darah. Secara keseluruhan, obat meningkatkan hasil dalam populasi, tetapi ketika bertingkat pada tekanan darah pasca perawatan hasilnya lebih buruk pada kelompok tekanan darah rendah dan tinggi. Bagaimana ini bisa benar? Karena kita telah secara tidak sengaja membuat stratifikasi pada hasil, dan dalam setiap hasil yang tersisa untuk diamati adalah efek samping toksik.
Untuk memperjelas, bayangkan obat ini dirancang untuk memperbaiki patah hati, dan ia melakukan ini dengan menurunkan tekanan darah, dan alih-alih bertingkat pada tekanan darah, kita bertingkat pada jantung yang tetap. Ketika obat bekerja, jantung diperbaiki (dan tekanan darah akan lebih rendah), tetapi beberapa pasien juga akan mendapatkan efek samping toksik. Karena obat ini bekerja, kelompok 'jantung tetap' akan memiliki lebih banyak pasien yang telah menggunakan obat, daripada ada pasien yang menggunakan obat dalam kelompok jantung 'rusak'. Semakin banyak pasien yang menggunakan obat berarti semakin banyak pasien yang mendapatkan efek samping, dan tampaknya (tetapi salah) hasil yang lebih baik untuk pasien yang tidak menggunakan obat.
Pasien yang sembuh tanpa minum obat hanya beruntung. Para pasien yang menggunakan obat dan menjadi lebih baik adalah campuran dari mereka yang membutuhkan obat untuk menjadi lebih baik, dan mereka yang akan beruntung juga. Memeriksa hanya pasien dengan 'jantung tetap' berarti mengecualikan pasien yang akan diperbaiki seandainya mereka minum obat. Mengecualikan pasien seperti itu berarti mengecualikan bahaya dari tidak minum obat yang pada gilirannya berarti kita hanya melihat bahaya dari minum obat.
Paradoks Simpson muncul ketika ada penyebab untuk hasil selain pengobatan seperti fakta bahwa dokter Anda hanya melakukan kasus rumit. Mengontrol untuk penyebab umum (rumit versus kasus mudah) memungkinkan kita untuk melihat efek yang sebenarnya. Dalam contoh terakhir, kami telah secara tidak sengaja melakukan stratifikasi pada hasil bukan pada penyebab yang berarti jawaban sebenarnya adalah agregat, bukan data bertingkat.
[^ 1]: Pearl J. Inferensial Kausal dalam Statistik. John Wiley & Sons; 2016
Salah satu "favorit" saya, yang artinya itulah yang membuat saya tergila-gila dengan interpretasi banyak studi (dan seringkali oleh penulis sendiri, bukan hanya media) adalah Survivorship Bias .
Salah satu cara untuk membayangkannya adalah anggap ada beberapa efek yang sangat merugikan subyek, begitu banyak sehingga memiliki peluang yang sangat baik untuk membunuh mereka. Jika subjek terpapar pada efek ini sebelum penelitian , maka pada saat studi dimulai, subjek yang terpapar yang masih hidup memiliki kemungkinan yang sangat tinggi untuk memiliki daya tahan yang luar biasa. Seleksi alamiah di tempat kerja. Ketika ini terjadi, penelitian ini akan mengamati bahwa subjek yang terpapar adalah sehat luar biasa (karena semua yang tidak sehat sudah mati atau memastikan untuk berhenti terkena efeknya). Hal ini sering disalahartikan sebagai menyiratkan bahwa paparan sebenarnya baik untuk subjek. Ini adalah hasil dari mengabaikan pemotongan (Yaitu mengabaikan subyek yang meninggal dan tidak berhasil ke ruang belajar).
Demikian pula, subjek yang berhenti terpapar pada efek selama penelitian seringkali sangat tidak sehat: ini karena mereka telah menyadari bahwa paparan yang terus menerus mungkin akan membunuh mereka. Tetapi penelitian ini hanya mengamati bahwa mereka yang berhenti merokok sangat tidak sehat!
@ Charlie menjawab tentang para pembom Perang Dunia II dapat dianggap sebagai contoh dari ini, tetapi ada banyak contoh modern juga. Contoh terbaru adalah studi yang melaporkan bahwa minum 8+ cangkir kopi sehari(!!) Berhubungan dengan kesehatan jantung yang jauh lebih tinggi pada subjek berusia di atas 55 tahun. Banyak orang dengan PhD menafsirkan ini sebagai "minum kopi baik untuk jantung Anda!", Termasuk para penulis penelitian. Saya membaca ini karena Anda harus memiliki jantung yang sangat sehat untuk tetap minum 8 cangkir kopi sehari setelah 55 tahun dan tidak terkena serangan jantung. Bahkan jika itu tidak membunuh Anda, saat sesuatu terlihat mengkhawatirkan tentang kesehatan Anda, semua orang yang mencintai Anda (ditambah dokter Anda) akan segera mendorong Anda untuk berhenti minum kopi. Studi lebih lanjut menemukan bahwa minum kopi begitu banyak tidak memiliki efek menguntungkan pada kelompok yang lebih muda, yang saya percaya lebih banyak bukti bahwa kita melihat efek bertahan hidup, daripada efek kausal positif. Namun ada banyak PhD berlarian mengatakan "
Saya terkejut belum ada yang menyebutkan Paradox Newcombe , meskipun lebih banyak dibahas dalam teori keputusan. Ini pasti salah satu favorit saya.