Ringkasan: Apakah ada teori statistik untuk mendukung penggunaan distribusi- (dengan derajat kebebasan berdasarkan pada residual deviance) untuk pengujian koefisien regresi logistik, daripada distribusi normal standar?
Beberapa waktu yang lalu saya menemukan bahwa ketika memasang model regresi logistik di SAS PROC GLIMMIX, di bawah pengaturan default, koefisien regresi logistik diuji menggunakan distribusi daripada distribusi normal standar. Yaitu, GLIMMIX melaporkan kolom dengan rasio (yang akan saya panggil pada sisa pertanyaan ini ), tetapi juga melaporkan kolom "derajat kebebasan", serta nilai berdasarkan asumsi distribusi untuk1 β 1 / √ zt z 2dengan derajat kebebasan berdasarkan pada penyimpangan residu - yaitu, derajat kebebasan = jumlah total pengamatan dikurangi jumlah parameter. Di bagian bawah pertanyaan ini saya memberikan beberapa kode dan output dalam R dan SAS untuk demonstrasi dan perbandingan.
Ini membingungkan saya, karena saya berpikir bahwa untuk model linear umum seperti regresi logistik, tidak ada teori statistik untuk mendukung penggunaan distribusi- dalam kasus ini. Alih-alih, saya pikir yang kami tahu tentang kasus ini adalah itu
- adalah "kira-kira" terdistribusi normal;
- perkiraan ini mungkin buruk untuk ukuran sampel kecil;
- namun demikian tidak dapat diasumsikan bahwa memiliki distribusi seperti yang dapat kita asumsikan dalam kasus regresi normal.t
Sekarang, pada tingkat intuitif, tampaknya masuk akal bagi saya bahwa jika kira-kira terdistribusi normal, mungkin sebenarnya memiliki beberapa distribusi yang pada dasarnya " like", bahkan jika itu tidak tepat . Jadi penggunaan distribusi sini sepertinya tidak gila. Tapi yang ingin saya ketahui adalah sebagai berikut:t t t
- Apakah sebenarnya ada teori statistik yang menunjukkan bahwa benar-benar mengikuti distribusi dalam kasus regresi logistik dan / atau model linear umum lainnya?t
- Jika tidak ada teori seperti itu, apakah setidaknya ada makalah di luar sana yang menunjukkan bahwa dengan asumsi distribusi dengan cara ini bekerja dengan baik, atau bahkan mungkin lebih baik daripada, dengan asumsi distribusi normal?
Secara lebih umum, apakah ada dukungan aktual untuk apa yang dilakukan GLIMMIX di sini selain dari intuisi yang mungkin pada dasarnya masuk akal?
Kode R:
summary(glm(y ~ x, data=dat, family=binomial))
R output:
Call:
glm(formula = y ~ x, family = binomial, data = dat)
Deviance Residuals:
Min 1Q Median 3Q Max
-1.352 -1.243 1.025 1.068 1.156
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) 0.22800 0.06725 3.390 0.000698 ***
x -0.17966 0.10841 -1.657 0.097462 .
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 1235.6 on 899 degrees of freedom
Residual deviance: 1232.9 on 898 degrees of freedom
AIC: 1236.9
Number of Fisher Scoring iterations: 4
Kode SAS:
proc glimmix data=logitDat;
model y(event='1') = x / dist=binomial solution;
run;
Output SAS (diedit / disingkat):
The GLIMMIX Procedure
Fit Statistics
-2 Log Likelihood 1232.87
AIC (smaller is better) 1236.87
AICC (smaller is better) 1236.88
BIC (smaller is better) 1246.47
CAIC (smaller is better) 1248.47
HQIC (smaller is better) 1240.54
Pearson Chi-Square 900.08
Pearson Chi-Square / DF 1.00
Parameter Estimates
Standard
Effect Estimate Error DF t Value Pr > |t|
Intercept 0.2280 0.06725 898 3.39 0.0007
x -0.1797 0.1084 898 -1.66 0.0978
Sebenarnya saya pertama kali memperhatikan ini tentang model regresi logistik efek campuran dalam PROC GLIMMIX, dan kemudian menemukan bahwa GLIMMIX juga melakukan ini dengan regresi logistik "vanilla".
n Saya mengerti bahwa dalam contoh yang ditunjukkan di bawah ini, dengan 900 pengamatan, perbedaan di sini mungkin tidak membuat perbedaan praktis. Itu bukan poin saya. Ini hanya data yang saya buat dengan cepat dan memilih 900 karena ini adalah angka yang tampan. Namun saya sedikit bertanya-tanya tentang perbedaan praktis dengan ukuran sampel kecil, misalnya <30.
PROC LOGISTIC
di SAS menghasilkan tes tipe-wald yang biasa berdasarkan pada -score. Saya bertanya-tanya apa yang mendorong perubahan dalam fungsi yang lebih baru (produk sampingan dari generalisasi?).