Dalam sebuah makalah baru-baru ini Norton et al. (2018) menyatakan itu
Rasio odds yang berbeda dari studi yang sama tidak dapat dibandingkan ketika model statistik yang menghasilkan estimasi rasio odds memiliki variabel penjelas yang berbeda karena setiap model memiliki faktor penskalaan arbitrer yang berbeda. Juga tidak bisa besarnya rasio odds dari satu studi dibandingkan dengan besarnya rasio odds dari studi lain, karena sampel yang berbeda dan spesifikasi model yang berbeda akan memiliki faktor penskalaan yang berbeda pula. Implikasi lebih lanjut adalah bahwa besarnya rasio odds dari asosiasi yang diberikan dalam beberapa penelitian tidak dapat disintesis dalam meta-analisis.
Simulasi kecil menggambarkan hal ini (kode R ada di bagian bawah pertanyaan). Misalkan model yang benar adalah:
Bayangkan lebih lanjut bahwa data yang sama yang dihasilkan oleh model di atas dianalisis oleh empat peneliti yang berbeda menggunakan regresi logistik. Peneliti 1 hanya menyertakan sebagai kovariat, peneliti 2 mencakup dan x_ {2} dan seterusnya. Estimasi rata-rata simulasi dari odds ratio untuk x_ {1} dari empat peneliti adalah:
res_1 res_2 res_3 res_4
1.679768 1.776200 2.002157 2.004077
Jelas bahwa hanya peneliti 3 dan 4 yang mendapatkan rasio odds yang benar sekitar sedangkan peneliti 1 dan 2 tidak. Ini tidak terjadi dalam regresi linier, yang dapat dengan mudah ditunjukkan oleh simulasi yang sama (tidak ditampilkan di sini). Saya harus mengakui bahwa hasil ini cukup mengejutkan bagi saya, meskipun masalah ini tampaknya sudah diketahui . Hernán et al. (2011) menyebutnya "keanehan matematis" dan bukannya bias.
Pertanyaan saya:
- Jika rasio odds pada dasarnya tidak dapat dibandingkan lintas studi dan model, bagaimana kita bisa menggabungkan hasil berbagai studi untuk hasil biner?
- Apa yang bisa dikatakan tentang banyak meta-analisis yang tidak menggabungkan rasio odds dari studi yang berbeda di mana setiap studi mungkin disesuaikan untuk satu set yang berbeda dari kovariat? Apakah mereka pada dasarnya tidak berguna?
Referensi
[1]: Norton EC, Dowd BE, Maciejewski ML (2018): Odds Ratios - Praktek dan Penggunaan Terbaik Saat Ini. JAMA 320 (1): 84-85.
[2]: Norton EC, Dowd BE (2017): Log Peluang dan Interpretasi Model Logit. Layanan Kesehatan Res. 53 (2): 859-878.
[3]: Hernán MA, Clayton D, Keiding N (2011): Paradoks The Simpson terurai. Int J Epidemiol 40: 780-785.
Penyingkapan
Pertanyaan (termasuk kode R) adalah versi modifikasi dari pertanyaan yang diajukan oleh timdisher pengguna pada datamethods .
Kode r
set.seed(142857)
n_sims <- 1000 # number of simulations
out <- data.frame(
treat_1 = rep(NA, n_sims)
, treat_2 = rep(NA, n_sims)
, treat_3 = rep(NA, n_sims)
, treat_4 = rep(NA, n_sims)
)
n <- 1000 # number of observations in each simulation
coef_sim <- "x1" # Coefficient of interest
# Coefficients (log-odds)
b0 <- 1
b1 <- log(2)
b2 <- log(2.5)
b3 <- log(3)
b4 <- 0
for(i in 1:n_sims){
x1 <- rbinom(n, 1, 0.5)
x2 <- rnorm(n)
x3 <- rnorm(n)
x4 <- rnorm(n)
z <- b0 + b1*x1 + b2*x2 + b3*x3 + b4*x4
pr <- 1/(1 + exp(-z))
y <- rbinom(n, 1, pr)
df <- data.frame(y = y, x1 = x1, x2 = x2, x3 = x3, x4 = x4)
model1 <- glm(y ~ x1, data = df, family = "binomial")
model2 <- glm(y ~ x1 + x2, data = df, family = "binomial")
model3 <- glm(y ~ x1 + x2 + x3, data = df, family = "binomial")
model4 <- glm(y ~ x1 + x2 + x3 + x4, data = df, family = "binomial")
out$treat_1[i] <- model1$coefficients[coef_sim]
out$treat_2[i] <- model2$coefficients[coef_sim]
out$treat_3[i] <- model3$coefficients[coef_sim]
out$treat_4[i] <- model4$coefficients[coef_sim]
}
# Coefficients
colMeans(out)
exp(colMeans(out)) # Odds ratios