Jawaban ini datang dalam dua bagian, yang pertama jawaban langsung untuk pertanyaan dan yang kedua komentar pada model yang Anda usulkan.
Bagian pertama berkaitan dengan penggunaan Numbers
sebagai offset dan memilikinya pada rhs dari persamaan. Efek melakukan ini hanya akan mengurangi 1 dari koefisien estimasi Numbers
, dengan demikian membalikkan efek offset, dan sebaliknya tidak akan mengubah hasilnya. Contoh berikut, dengan beberapa baris output yang tidak relevan dihapus, menunjukkan ini:
library(MASS)
Numbers <- rpois(100,12)
p <- 1 / (1 + exp(0.25*Numbers))
y <- rbinom(100, Numbers, p)
Incident <- pmin(y, 1)
> summary(glm(Incident~Numbers, family="binomial"))
Deviance Residuals:
Min 1Q Median 3Q Max
-1.3121 -1.0246 -0.8731 1.2512 1.7465
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) 0.99299 0.80624 1.232 0.2181
Numbers -0.11364 0.06585 -1.726 0.0844 . <= COEFFICIENT WITH NO OFFSET TERM
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 135.37 on 99 degrees of freedom
Residual deviance: 132.24 on 98 degrees of freedom
AIC: 136.24
> summary(glm(Incident~Numbers, offset=Numbers, family="binomial"))
Deviance Residuals:
Min 1Q Median 3Q Max
-1.3121 -1.0246 -0.8731 1.2512 1.7465
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) 0.99299 0.80624 1.232 0.218
Numbers -1.11364 0.06585 -16.911 <2e-16 *** <= COEFFICIENT WITH OFFSET TERM
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 342.48 on 99 degrees of freedom
Residual deviance: 132.24 on 98 degrees of freedom
AIC: 136.24
Perhatikan bagaimana semuanya sama kecuali koefisien Bilangan dan penyimpangan nol (dan t-statistik, karena itu masih menguji terhadap 0 bukannya -1.)
t1−(1−pt)NtNttpttlog(1−(1−pt)Nt)/Ntlog(1−pt)tNtNt
Orang mungkin juga menduga bahwa probabilitas per-pasien bervariasi dari pasien ke pasien, yang akan mengarah pada model hierarkis yang lebih kompleks, tetapi saya tidak akan membahasnya di sini.
Bagaimanapun, mengingat ini dan kisaran terbatas jumlah pasien yang Anda amati, daripada menggunakan model yang linier pada skala logit, mungkin lebih baik bersikap nonparametrik tentang hubungan dan mengelompokkan jumlah pasien menjadi tiga atau empat kelompok, misalnya, 10-11, 12-13, 14-15, dan 16-17, membuat variabel dummy untuk kelompok tersebut, kemudian menjalankan regresi logistik dengan variabel dummy di sisi kanan. Ini akan lebih memungkinkan penangkapan hubungan nonlinear seperti "sistem kelebihan beban sekitar 16 pasien dan insiden mulai meningkat secara signifikan." Jika Anda memiliki rentang pasien yang jauh lebih luas, saya akan menyarankan model aditif umum, misalnya, 'gam' dari paket 'mgcv'.