Untuk mengajukan pertanyaan saya dengan lebih baik, saya telah menyediakan beberapa output dari model 16 variabel ( fit
) dan 17 model variabel ( fit2
) di bawah ini (semua variabel prediktor dalam model ini kontinu, di mana satu-satunya perbedaan antara model ini adalah yang fit
tidak mengandung variabel 17 (var17)):
fit Model Likelihood Discrimination Rank Discrim.
Ratio Test Indexes Indexes
Obs 102849 LR chi2 13602.84 R2 0.173 C 0.703
0 69833 d.f. 17 g 1.150 Dxy 0.407
1 33016 Pr(> chi2) <0.0001 gr 3.160 gamma 0.416
max |deriv| 3e-05 gp 0.180 tau-a 0.177
Brier 0.190
fit2 Model Likelihood Discrimination Rank Discrim.
Ratio Test Indexes Indexes
Obs 102849 LR chi2 13639.70 R2 0.174 C 0.703
0 69833 d.f. 18 g 1.154 Dxy 0.407
1 33016 Pr(> chi2) <0.0001 gr 3.170 gamma 0.412
max |deriv| 3e-05 gp 0.180 tau-a 0.177
Brier 0.190
Saya menggunakan rms
paket Frank Harrell untuk membangun lrm
model ini . Seperti yang Anda lihat, model-model ini tampaknya tidak banyak berbeda, jika sama sekali, di seluruh Indeks Diskriminasi dan Diskrim Peringkat. Indeks ; Namun, menggunakan lrtest(fit,fit2)
, saya diberi hasil sebagai berikut:
L.R. Chisq d.f. P
3.685374e+01 1.000000e+00 1.273315e-09
Dengan demikian, kami akan menolak hipotesis nol dari uji rasio kemungkinan ini; Namun, saya akan berasumsi ini kemungkinan karena ukuran sampel yang besar ( n = 102849) karena model ini tampil berkinerja serupa. Selain itu, saya tertarik untuk menemukan cara yang lebih baik untuk secara formal membandingkan model regresi logistik biner bersarang ketika n besar.
Saya sangat menghargai umpan balik, skrip R, atau dokumentasi yang dapat mengarahkan saya ke arah yang benar dalam hal membandingkan model-model bersarang jenis ini! Terima kasih!
fit2
ini adalah model variabel 17, tetapi juga model yang menghilangkan V17
. Anda mungkin ingin mengedit ini.
fit2
ke fit
dalam contoh di atas sesuai koreksi Anda. Terima kasih!