Saya ingin menggunakan data jumlah sebagai kovariat sambil menyesuaikan model regresi logistik. Pertanyaanku adalah:
- Apakah saya melanggar asumsi model logistik (dan, lebih umum, dari linier umum) dengan menggunakan variabel integer hitung non-negatif sebagai variabel independen?
Saya menemukan banyak referensi dalam literatur tentang panas untuk menggunakan data jumlah sebagai hasil, tetapi tidak sebagai kovariat; lihat misalnya makalah yang sangat jelas: "NE Breslow (1996) Generalized Linear Models: Memeriksa Asumsi dan Penguatan Kesimpulan, Congresso Nazionale Societa Italiana di Biometria, Cortona Juni 1995", tersedia di http://biostat.georgiahealth.edu/~dryu /course/stat9110spring12/land16_ref.pdf .
Secara longgar, tampaknya asumsi glm dapat dinyatakan sebagai berikut:
- iid residual;
- fungsi tautan harus mewakili hubungan antara variabel dependen dan independen dengan benar;
- tidak adanya outlier
Apakah semua orang tahu apakah ada asumsi lain / masalah teknis yang mungkin menyarankan untuk menggunakan beberapa jenis model lain untuk berurusan dengan kovariat hitung?
Akhirnya, harap perhatikan bahwa data saya mengandung sampel yang relatif sedikit (<100) dan rentang variabel jumlah dapat bervariasi dalam 3-4 urutan besarnya (yaitu beberapa variabel memiliki nilai dalam kisaran 0-10, sedangkan variabel lain mungkin memiliki nilai dalam 0-10000).
Contoh kode R sederhana berikut:
\###########################################################
\#generating simulated data
var1 <- sample(0:10, 100, replace = TRUE);
var2 <- sample(0:1000, 100, replace = TRUE);
var3 <- sample(0:100000, 100, replace = TRUE);
outcome <- sample(0:1, 100, replace = TRUE);
dataset <- data.frame(outcome, var1, var2, var3);
\#fitting the model
model <- glm(outcome ~ ., family=binomial, data = dataset)
\#inspecting the model
print(model)
\###########################################################