Kami meminta 60 orang untuk mendaftarkan sebanyak mungkin waralaba restoran di Atlanta. Daftar keseluruhan mencakup lebih dari 70 restoran, tetapi kami menghilangkan yang disebutkan oleh kurang dari 10% orang, meninggalkan kami dengan 45. Untuk 45 ini, kami menghitung proporsi informan yang mendaftar waralaba, dan kami tertarik pada memodelkan proporsi ini sebagai fungsi dari anggaran iklan waralaba (log-transformed) dan bertahun-tahun sejak menjadi waralaba.
Jadi saya menulis kode ini:
model <- glm ( cbind (listed, 55-listed) ~ log.budget + years, family = binomial, data = list.45)
Seperti yang diperkirakan, kedua variabel menunjukkan efek yang kuat dan signifikan.
Tetapi meskipun saya tahu bahwa data proporsional tidak boleh dimodelkan dengan regresi OLS, saya kemudian menulis kode ini:
model.lm <- lm ( proportion.55 ~ log.budget + years, data = list.45)
Dalam hal ini, "anggaran" masih merupakan prediktor yang signifikan, tetapi "tahun" relatif lemah dan tidak signifikan.
Itu membuat saya khawatir bahwa kepercayaan pada estimasi meningkat secara artifisial oleh agregasi. Bukankah binomial glm pada dasarnya membuat vektor data sehingga model didasarkan pada 45 * 55 = 2.475 baris? Apakah itu tepat mengingat hanya ada 45 restoran dan 55 informan? Apakah ini panggilan untuk pemodelan efek campuran?
lm
dan glm(...,family=binomial)
, tetapi salah satu yang penting adalah bahwa GLM binomial membuat asumsi kuat tentang varians. Jika data tidak tersebar secara berlebihan, maka agregasi / disagregasi tidak membuat perbedaan.
family=quasibinomial