Andrew Gelman dalam salah satu posting blognya mengatakan:
Saya tidak berpikir kontrafaktual atau hasil potensial diperlukan untuk paradoks Simpson. Saya mengatakan ini karena seseorang dapat mengatur paradoks Simpson dengan variabel yang tidak dapat dimanipulasi, atau manipulasi yang tidak secara langsung menarik.
Paradoks Simpson adalah bagian dari masalah yang lebih umum bahwa koefisien regresi berubah jika Anda menambahkan lebih banyak prediktor, membalik tanda tidak terlalu diperlukan.
Berikut adalah contoh yang saya gunakan dalam pengajaran saya yang menggambarkan kedua poin:
Saya bisa menjalankan regresi memprediksi pendapatan dari jenis kelamin dan tinggi badan. Saya menemukan bahwa koefisien seks adalah $ 10.000 (yaitu, membandingkan pria dan wanita dengan tinggi yang sama, rata-rata pria akan menghasilkan $ 10.000 lebih) dan koefisien tinggi adalah $ 500 (yaitu, membandingkan dua pria atau dua wanita dari ketinggian yang berbeda, rata-rata orang yang lebih tinggi akan menghasilkan $ 500 lebih tinggi per inci).
Bagaimana saya bisa menafsirkan koefisien ini? Saya merasa bahwa koefisien tinggi badan mudah untuk ditafsirkan (mudah untuk membayangkan membandingkan dua orang dari jenis kelamin yang sama dengan ketinggian yang berbeda), memang tampaknya entah bagaimana “salah” untuk mundur pada ketinggian tanpa mengendalikan seks, seperti kebanyakan bahan mentah lainnya. perbedaan antara orang pendek dan tinggi bisa "dijelaskan" dengan menjadi perbedaan antara pria dan wanita. Tetapi koefisien seks dalam model di atas tampaknya sangat sulit untuk ditafsirkan: mengapa membandingkan pria dan wanita yang keduanya 66 inci, misalnya? Itu akan menjadi perbandingan pria pendek dengan wanita tinggi. Semua alasan ini agaknya kausal, tetapi saya rasa tidak masuk akal untuk memikirkannya menggunakan hasil yang potensial.
Saya merenungkannya (dan bahkan mengomentari pos itu) dan berpikir ada sesuatu yang ingin dipahami dengan lebih jelas di sini.
Sampai pada bagian penafsiran gender itu sangat oke. Tapi saya tidak melihat apa masalah di balik membandingkan pria pendek dan wanita tinggi. Inilah poin saya: Sebenarnya lebih masuk akal (mengingat asumsi bahwa pria lebih tinggi rata-rata). Anda tidak dapat membandingkan 'pria pendek' dan wanita 'pendek' untuk alasan yang persis sama, bahwa perbedaan pendapatan dijelaskan di beberapa bagian oleh perbedaan ketinggian. Hal yang sama berlaku untuk pria jangkung dan wanita jangkung dan bahkan lebih untuk wanita jangkung dan pria jangkung (yang lebih jauh dari pertanyaan, jadi untuk berbicara). Jadi pada dasarnya efek tinggi badan dihilangkan hanya dalam kasus ketika pria pendek dan wanita tinggi dibandingkan (dan ini membantu dalam menafsirkan koefisien pada gender). Bukankah itu membunyikan lonceng pada konsep yang mendasari serupa di balik model pencocokan populer?
Gagasan di balik paradoks Simpson adalah bahwa efek populasi mungkin berbeda dari efek bijaksana sub-kelompok. Ini dalam beberapa hal terkait dengan poin 2 dan fakta bahwa ia mengakui bahwa ketinggian tidak boleh dikontrol sendirian (apa yang kita katakan dihilangkan bias variabel). Tapi saya tidak bisa menghubungkan ini dengan kontroversi pada koefisien pada gender.
Mungkin Anda bisa mengekspresikannya dengan lebih jelas? Atau mengomentari pemahaman saya?