Bisakah data ini dikumpulkan menjadi proporsi untuk glm binomial?

Kami meminta 60 orang untuk mendaftarkan sebanyak mungkin waralaba restoran di Atlanta. Daftar keseluruhan mencakup lebih dari 70 restoran, tetapi kami menghilangkan yang disebutkan oleh kurang dari 10% orang, meninggalkan kami dengan 45. Untuk 45 ini, kami menghitung proporsi informan yang mendaftar waralaba, dan kami tertarik pada memodelkan proporsi ini sebagai fungsi dari anggaran iklan waralaba (log-transformed) dan bertahun-tahun sejak menjadi waralaba.

Jadi saya menulis kode ini:

model <- glm ( cbind (listed, 55-listed) ~ log.budget + years, family = binomial, data = list.45)

Seperti yang diperkirakan, kedua variabel menunjukkan efek yang kuat dan signifikan.

Tetapi meskipun saya tahu bahwa data proporsional tidak boleh dimodelkan dengan regresi OLS, saya kemudian menulis kode ini:

model.lm <- lm ( proportion.55 ~ log.budget + years, data = list.45)

Dalam hal ini, "anggaran" masih merupakan prediktor yang signifikan, tetapi "tahun" relatif lemah dan tidak signifikan.

Itu membuat saya khawatir bahwa kepercayaan pada estimasi meningkat secara artifisial oleh agregasi. Bukankah binomial glm pada dasarnya membuat vektor data sehingga model didasarkan pada 45 * 55 = 2.475 baris? Apakah itu tepat mengingat hanya ada 45 restoran dan 55 informan? Apakah ini panggilan untuk pemodelan efek campuran?

r generalized-linear-model

— Jeremy _
sumber

petunjuk: lihat apa yang terjadi denganfamily=quasibinomial

— Ben Bolker

Menarik. Koefisien estimasi adalah sama, tetapi kesalahan standar lebih konservatif (dan tahun tidak signifikan dalam model quasibinomial). Saya mencari file bantuan untuk quasibinomial, tetapi dapatkah Anda menjelaskan apa yang terjadi? Kesan saya adalah bahwa quasibinomial digunakan terutama untuk overdispersi. . .

— Jeremy _

Persis. Ada berbagai perbedaan antara lmdan glm(...,family=binomial), tetapi salah satu yang penting adalah bahwa GLM binomial membuat asumsi kuat tentang varians. Jika data tidak tersebar secara berlebihan, maka agregasi / disagregasi tidak membuat perbedaan.

— Ben Bolker

Output R menunjukkan bahwa paramater dispersi diambil menjadi 8,7. Saya mencoba untuk mencari tahu apa yang dikatakan ini tentang overdispersi. Sementara itu, Ben, saya melihat bahwa Anda memiliki banyak latar belakang dengan model campuran. Apakah saya aman menggunakan binomial glm tanpa efek campuran untuk informan atau waralaba (dalam hal ini saya mungkin harus membuat vektor semua data sambil menambahkan kolom untuk "ID Informan")?

— Jeremy _

Untuk data proporsional, seseorang dapat mengambil logaritma variabel dependen sebelum pemasangan karena logaritma mengubah perkalian menjadi penjumlahan. Dalam nada yang sama, jika seseorang juga mengambil logaritma variabel independen, jika mereka juga proporsional, maka kesesuaian yang dihasilkan untuk regresi linier berganda mengimplikasikan model produk fungsi daya, bukan yang aditif, yaitu, . Yaitu, satu yang cocok . Untuk variabel proporsional, ini biasanya memberikan signifikansi lebih tinggi daripada pemasangan linier, dan lebih kuat, dan memiliki lebih tinggi . $Y=c X_1^{k1}X_2^{k2}...X_n^{kn}$ $\ln(Y)=\ln(c)+k1 \ln(X_1)+k2 \ln(X_2)...+kn \ln(X_n)$ $R^2$

Sekarang jika garis regresi yang tidak diubah (idealnya regresi bivariat, misalnya, regresi Deming) tidak masuk akal melalui {0,0}, maka itu menjadi sedikit lebih rumit, dan satu meminimalkan fungsi kerugian proporsional yang diimbangi daripada menggunakan yang biasa. kotak.

— Carl
sumber