Kami memiliki data dengan hasil biner dan beberapa kovariat. Saya menggunakan regresi logistik untuk memodelkan data. Hanya analisis sederhana, tidak ada yang luar biasa. Hasil akhir seharusnya adalah kurva dosis-respons di mana kami menunjukkan bagaimana probabilitas berubah untuk kovariat tertentu. Sesuatu seperti ini:
Kami menerima beberapa kritik dari peninjau internal (bukan ahli statistik murni) karena memilih regresi logistik. Regresi logistik mengasumsikan (atau mendefinisikan) bahwa titik belok kurva berbentuk S pada skala probabilitas adalah pada probabilitas 0,5. Dia berpendapat bahwa tidak akan ada alasan untuk mengasumsikan bahwa titik belok memang pada probabilitas 0,5 dan kita harus memilih model regresi yang berbeda yang memungkinkan titik belok bervariasi sehingga posisi aktual adalah data didorong.
Pada awalnya saya tertangkap basah oleh argumennya, karena saya tidak pernah memikirkan hal ini. Saya tidak memiliki alasan mengapa dibenarkan untuk mengasumsikan bahwa titik belok adalah 0,5. Setelah melakukan riset, saya masih belum memiliki jawaban untuk pertanyaan ini.
Saya menemukan regresi logistik 5-parameter, di mana titik belok adalah parameter tambahan, tetapi tampaknya model regresi ini biasanya digunakan ketika menghasilkan kurva dosis-respons dengan hasil yang berkelanjutan. Saya tidak yakin apakah dan bagaimana hal itu dapat diperluas ke variabel respons biner.
Saya kira pertanyaan utama saya adalah mengapa atau kapan boleh diasumsikan bahwa titik belok untuk regresi logistik adalah 0,5? Apakah itu penting? Saya belum pernah melihat orang yang cocok dengan model regresi logistik dan secara eksplisit membahas masalah titik belok. Apakah ada alternatif untuk membuat kurva respons dosis di mana titik belok tidak harus sebesar 0,5?
Hanya untuk kelengkapan, kode R untuk menghasilkan gambar di atas:
dat <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv")
dat$rank <- factor(dat$rank)
logit <- glm(admit ~ gre + gpa + rank, family = binomial(link = "logit"), data = dat)
newdata <- data.frame(gre = seq(-2000,8000,1), gpa = 2.5, rank = factor(1,c(1,2,3,4)))
pp <- predict(logit, newdata, type = "response", se.fit = TRUE)
plot(newdata$gre, pp$fit, type="l", col="black", lwd=2,ylab="Probability", xlab="Dose")
Edit 1:
Hanya untuk menambahkan apa yang dikatakan Scortchi dalam salah satu komentar: Peninjau memang berpendapat bahwa secara biologis mungkin lebih mungkin bahwa perubahan kelengkungan terjadi lebih awal dari 0,5. Oleh karena itu penolakannya terhadap asumsi bahwa titik belok berada di 0,5.
Edit 2:
Sebagai reaksi terhadap komentar oleh Frank Harrell:
Sebagai contoh, saya memodifikasi model saya di atas untuk memasukkan istilah kuadrat dan kubik gre
(yang merupakan "dosis" dalam contoh ini).
logit <- glm(admit ~ gre+I(gre^2)+I(gre^3)+ gpa + rank, family = binomial(link = "logit"), data = dat)
newdata <- data.frame(admit=1, gre = seq(-2000,8000,1), gpa = 2.5, rank = factor(1,c(1,2,3,4)))
pp <- predict(logit, newdata, type = "response", se.fit = TRUE)
plot(newdata$gre, pp$fit, type="l", col="black", lwd=2,xlim=c(-2000,4000),ylab="Probability", xlab="Dose")
Terlepas dari kenyataan bahwa mungkin tidak bermakna untuk menambahkan gre
istilah kuadrat dan kubik dalam kasus ini, kita melihat bahwa bentuk kurva dosis-respons telah berubah. Memang kita sekarang memiliki dua titik belok di sekitar 0,25 dan dekat 0,7.