Saya dapat menunjukkan bahwa itu bias (saya pikir), tetapi saya tidak bisa menjelaskan mengapa. Saya berharap seseorang dapat melihat jawaban saya dan membantu menjelaskannya lebih lanjut.
Seperti dalam banyak meta-analisis dan gambar yang Anda poskan, banyak orang menafsirkan BESD sebagai: Jika Anda median membagi dua variabel, Anda akan secara akurat menempatkan orang di sel "kanan" dari tabel kontingensi 2 x 2 persen yang diberikan waktu.
Jadi jika , orang mungkin mengatakan, "Mengingat ini diamati , Anda dapat memikirkannya seperti ini: Orang-orang di atas median dalam X juga akan di atas median pada Y 70% dari waktu. " Ini adalah bagaimana Kraus (1995, hal. 69) menafsirkannya (ia bergantung pada situasi hipotetis di mana satu variabel benar-benar dikotomis, sementara yang lain adalah median split):r.50 + r / 2 = .70r
Orang-orang juga sering menggunakan metafora medis: " ini sesuai dengan perbedaan dalam 40 poin persentase antara orang dalam kondisi kontrol dan eksperimental."r
Untuk melihat apakah interpretasi median-split-esque bias, saya mensimulasikan populasi 1.000.000 kasus di mana populasi sebenarnya . Saya kemudian menarik 100 orang dari populasi ini, menghitung "tingkat yang benar" BESD (yaitu, ), dan kemudian menghitung rata - rata sel split rata - rata untuk tabel kontingensi 2 x 2, seperti yang dijelaskan di atas untuk mengkategorikan orang "dengan benar." Saya melakukan ini 10.000 kali..50 + r / 2r = .38.50 + r / 2
Saya kemudian mengambil rata-rata dan standar deviasi masing-masing vektor dengan panjang 10.000. Kode:
library(MASS)
# set population params
mu <- rep(0,2)
Sigma <- matrix(.38, nrow=2, ncol=2) + diag(2)*.62
# set seed
set.seed(1839)
# generate population
pop <- as.data.frame(mvrnorm(n=1000000, mu=mu, Sigma=Sigma))
# initialize vectors
besd_correct <- c()
actual_correct <- c()
# actually break up raw data by median split, see how it works
for (i in 1:10000) {
samp <- pop[sample(1:1000000, 100),]
besd_correct[i] <- round(100*(.50 + cor(samp)[1,2]/2),0)
samp$V1_split <- ifelse(samp$V1 > median(samp$V1), 1, 0)
samp$V2_split <- ifelse(samp$V2 > median(samp$V2), 1, 0)
actual_correct[i] <- with(samp, table(V1_split==V2_split))[[2]]
}
# cells for BESD
mean(besd_correct)
100 - mean(besd_correct)
# cells for actual 2 x 2 table with median split
mean(actual_correct)
100 - mean(actual_correct)
Berdasarkan BESD, kami mendapatkan tabel ini, di mana v1
dan v2
merujuk ke variabel dan low
dan high
merujuk ke bawah dan di atas median, masing-masing:
+---------+--------+---------+
| | v2 low | v2 high |
+---------+--------+---------+
| v1 low | 69 | 31 |
+---------+--------+---------+
| v1 high | 31 | 69 |
+---------+--------+---------+
Berdasarkan benar-benar melakukan pemisahan median dengan data mentah, kami mendapatkan tabel ini:
+---------+--------+---------+
| | v2 low | v2 high |
+---------+--------+---------+
| v1 low | 62 | 38 |
+---------+--------+---------+
| v1 high | 38 | 62 |
+---------+--------+---------+
Jadi, sementara seseorang dapat berdebat, menggunakan BESD, bahwa ada "perbedaan 38 poin persentase dalam kontrol dan eksperimen," rata-rata pembagian rata-rata memiliki angka ini di angka 24.
Saya tidak yakin mengapa ini terjadi, atau jika itu tergantung pada ukuran sampel dan korelasi (orang dapat dengan mudah melakukan lebih banyak simulasi untuk mencari tahu), saya pikir ini menunjukkan itu bias. Saya akan senang jika seseorang dapat berpadu dengan penjelasan matematis - bukan komputasi.