Berikut ini adalah pertanyaan tentang banyak visualisasi yang ditawarkan sebagai 'bukti oleh gambar' tentang keberadaan paradoks Simpson, dan mungkin pertanyaan tentang terminologi.
Paradox Simpson adalah fenomena yang cukup sederhana untuk menggambarkan dan memberikan contoh numerik (alasan mengapa ini bisa terjadi adalah dalam dan menarik). Paradoksnya adalah bahwa terdapat tabel kontingensi 2x2x2 (Agresti, Analisis Data Kategorikal) di mana asosiasi marjinal memiliki arah yang berbeda dari setiap asosiasi bersyarat.
Artinya, perbandingan rasio dalam dua subpopulasi dapat berjalan dalam satu arah tetapi perbandingan dalam populasi gabungan berjalan ke arah lain. Dalam simbol:
Ada sedemikian rupa sehingga a + b
tetapi dan
Ini secara akurat direpresentasikan dalam visualisasi berikut (dari Wikipedia ):
Fraksi hanyalah kemiringan dari vektor yang sesuai, dan mudah untuk melihat dalam contoh bahwa vektor B yang lebih pendek memiliki kemiringan yang lebih besar dari vektor L yang sesuai, tetapi vektor B yang dikombinasi memiliki kemiringan yang lebih kecil daripada vektor L yang digabungkan.
Ada visualisasi yang sangat umum dalam banyak bentuk, satu di bagian depan referensi wikipedia itu di Simpson's:
Ini adalah contoh yang bagus dari perancu, bagaimana variabel tersembunyi (yang memisahkan dua sub populasi) dapat menunjukkan pola yang berbeda.
Namun, secara matematis, gambar semacam itu sama sekali tidak sesuai dengan tampilan tabel kontingensi yang berada di dasar fenomena yang dikenal sebagai paradoks Simpson . Pertama, garis regresi lebih dari data set point bernilai nyata, bukan menghitung data dari tabel kontingensi.
Juga, seseorang dapat membuat set data dengan hubungan sembarang lereng di garis regresi, tetapi dalam tabel kontingensi, ada batasan dalam seberapa berbeda lereng bisa. Artinya, garis regresi suatu populasi dapat menjadi ortogonal untuk semua regresi dari subpopulasi yang diberikan. Tetapi dalam Paradox Simpson, rasio subpopulasi, meskipun bukan kemiringan regresi, tidak dapat menyimpang terlalu jauh dari populasi yang digabung, bahkan jika ke arah lain (sekali lagi, lihat gambar perbandingan perbandingan dari Wikipedia).
Bagi saya, itu cukup mengejutkan setiap kali saya melihat gambar yang terakhir sebagai visualisasi dari paradoks Simpson. Tetapi karena saya melihat contoh (apa yang saya sebut salah) di mana-mana, saya ingin tahu:
- Apakah saya kehilangan transformasi halus dari contoh simpson / Yule asli dari tabel kontingensi menjadi nilai riil yang membenarkan visualisasi garis regresi?
- Tentunya Simpson adalah contoh kesalahan pembaur tertentu. Telah istilah 'Simpson Paradox' sekarang menjadi disamakan dengan pengganggu kesalahan, sehingga apa pun matematika, setiap perubahan arah melalui variabel tersembunyi bisa disebut Simpson Paradox?
Tambahan: Berikut adalah contoh generalisasi ke tabel 2xmxn (atau 2 x m secara kontinu):
Jika digabungkan dengan tipe tembakan, sepertinya pemain melakukan lebih banyak tembakan ketika pemain belakang lebih dekat. Dikelompokkan berdasarkan tipe tembakan (benar-benar jauh dari keranjang), situasi yang secara intuitif lebih diharapkan terjadi, bahwa semakin banyak tembakan dilakukan semakin jauh para pembela.
Gambar ini adalah apa yang saya anggap sebagai generalisasi dari Simpson ke situasi yang lebih berkelanjutan (jarak pembela). Tapi saya masih belum melihat bagaimana contoh garis regresi adalah contoh dari Simpson.