Saya telah mengerjakan model logistik dan saya mengalami kesulitan mengevaluasi hasilnya. Model saya adalah logit binomial. Variabel penjelas saya adalah: variabel kategori dengan 15 level, variabel dikotomis, dan 2 variabel kontinu. N saya besar> 8000.
Saya mencoba memodelkan keputusan perusahaan untuk berinvestasi. Variabel dependen adalah investasi (ya / tidak), variabel level 15 adalah hambatan berbeda untuk investasi yang dilaporkan oleh manajer. Variabel lainnya adalah kontrol untuk penjualan, kredit, dan kapasitas yang digunakan.
Di bawah ini adalah hasil saya, menggunakan rms
paket di R.
Model Likelihood Discrimination Rank Discrim.
Ratio Test Indexes Indexes
Obs 8035 LR chi2 399.83 R2 0.067 C 0.632
1 5306 d.f. 17 g 0.544 Dxy 0.264
2 2729 Pr(> chi2) <0.0001 gr 1.723 gamma 0.266
max |deriv| 6e-09 gp 0.119 tau-a 0.118
Brier 0.213
Coef S.E. Wald Z Pr(>|Z|)
Intercept -0.9501 0.1141 -8.33 <0.0001
x1=10 -0.4929 0.1000 -4.93 <0.0001
x1=11 -0.5735 0.1057 -5.43 <0.0001
x1=12 -0.0748 0.0806 -0.93 0.3536
x1=13 -0.3894 0.1318 -2.96 0.0031
x1=14 -0.2788 0.0953 -2.92 0.0035
x1=15 -0.7672 0.2302 -3.33 0.0009
x1=2 -0.5360 0.2668 -2.01 0.0446
x1=3 -0.3258 0.1548 -2.10 0.0353
x1=4 -0.4092 0.1319 -3.10 0.0019
x1=5 -0.5152 0.2304 -2.24 0.0254
x1=6 -0.2897 0.1538 -1.88 0.0596
x1=7 -0.6216 0.1768 -3.52 0.0004
x1=8 -0.5861 0.1202 -4.88 <0.0001
x1=9 -0.5522 0.1078 -5.13 <0.0001
d2 0.0000 0.0000 -0.64 0.5206
f1 -0.0088 0.0011 -8.19 <0.0001
k8 0.7348 0.0499 14.74 <0.0001
Pada dasarnya saya ingin menilai regresi dalam dua cara, a) seberapa baik model cocok dengan data dan b) seberapa baik model memprediksi hasil. Untuk menilai goodness of fit (a), saya pikir tes penyimpangan berdasarkan chi-kuadrat tidak sesuai dalam kasus ini karena jumlah kovariat unik mendekati N, jadi kami tidak dapat mengasumsikan distribusi X2. Apakah interpretasi ini benar?
Saya bisa melihat kovariat menggunakan epiR
paket.
require(epiR)
logit.cp <- epi.cp(logit.df[-1]))
id n x1 d2 f1 k8
1 1 13 2030 56 1
2 1 14 445 51 0
3 1 12 1359 51 1
4 1 1 1163 39 0
5 1 7 547 62 0
6 1 5 3721 62 1
...
7446
Saya juga telah membaca bahwa uji GoF Hosmer-Lemeshow sudah usang, karena membagi data dengan 10 untuk menjalankan tes, yang agak sewenang-wenang.
Sebagai gantinya saya menggunakan tes le Cessie – van Houwelingen – Copas – Hosmer, yang diimplementasikan dalam rms
paket. Saya tidak yakin persis bagaimana tes ini dilakukan, saya belum membaca makalah tentang itu. Bagaimanapun, hasilnya adalah:
Sum of squared errors Expected value|H0 SD Z P
1711.6449914 1712.2031888 0.5670868 -0.9843245 0.3249560
P besar, jadi tidak ada cukup bukti untuk mengatakan bahwa model saya tidak cocok. Bagus! Namun....
Ketika memeriksa kapasitas prediksi model (b), saya menggambar kurva ROC dan menemukan bahwa AUC 0.6320586
. Itu tidak terlihat bagus.
Jadi, untuk meringkas pertanyaan saya:
Apakah tes yang saya jalankan sesuai untuk memeriksa model saya? Tes apa lagi yang bisa saya pertimbangkan?
Apakah Anda menganggap model itu berguna sama sekali, atau akankah Anda mengabaikannya berdasarkan hasil analisis ROC yang relatif buruk?
x1
harus dianggap sebagai variabel kategori tunggal? Artinya, apakah setiap kasus harus memiliki 1, & hanya 1, 'hambatan' untuk berinvestasi? Saya akan berpikir bahwa beberapa kasus dapat dihadapkan dengan 2 atau lebih dari hambatan, & beberapa kasus tidak punya.