Ada banyak hal tentang kolinearitas berkenaan dengan prediktor kontinu tetapi tidak begitu banyak yang dapat saya temukan pada prediktor kategoris. Saya memiliki data jenis ini yang diilustrasikan di bawah ini.
Faktor pertama adalah variabel genetik (jumlah alel), faktor kedua adalah kategori penyakit. Jelas bahwa gen mendahului penyakit dan merupakan faktor dalam menunjukkan gejala yang mengarah pada diagnosis. Namun, analisis reguler menggunakan tipe II atau III jumlah kuadrat, seperti yang biasa dilakukan dalam psik dengan SPSS, melewatkan efeknya. Jenis I jumlah analisis kuadrat mengambilnya, ketika urutan yang tepat dimasukkan karena tergantung pesanan. Lebih lanjut, ada kemungkinan komponen tambahan untuk proses penyakit yang tidak terkait dengan gen yang tidak diidentifikasi dengan baik dengan tipe II atau III, lihat anova (lm1) di bawah vs lm2 atau Anova.
Contoh data:
set.seed(69)
iv1 <- sample(c(0,1,2), 150, replace=T)
iv2 <- round(iv1 + rnorm(150, 0, 1), 0)
iv2 <- ifelse(iv2<0, 0, iv2)
iv2 <- ifelse(iv2>2, 2, iv2)
dv <- iv2 + rnorm(150, 0, 2)
iv2 <- factor(iv2, labels=c("a", "b", "c"))
df1 <- data.frame(dv, iv1, iv2)
library(car)
chisq.test(table(iv1, iv2)) # quick gene & disease relations
lm1 <- lm(dv~iv1*iv2, df1); lm2 <- lm(dv~iv2*iv1, df1)
anova(lm1); anova(lm2)
Anova(lm1, type="II"); Anova(lm2, type="II")
- LM1 dengan tipe I SS bagi saya tampaknya cara yang tepat untuk menganalisis data yang diberikan teori latar belakang. Apakah asumsi saya benar?
- Saya terbiasa memanipulasi desain ortogonal secara eksplisit, di mana masalah ini biasanya tidak muncul. Apakah sulit untuk meyakinkan pengulas bahwa ini adalah proses terbaik (dengan asumsi poin 1 benar) dalam konteks bidang sentris SPSS?
- Dan apa yang harus dilaporkan di bagian statistik? Adakah analisis tambahan, atau komentar yang harus masuk?