Pertama izinkan saya memberi latar belakang; Saya akan meringkas pertanyaan saya di bagian akhir.
Distribusi Beta, diparameterisasi dengan rata-rata dan , memiliki , di mana adalah fungsi varians.
Dalam regresi beta (misalnya, menggunakan paket betareg dalam R), regresi mengasumsikan kesalahan yang didistribusikan beta dan memperkirakan efek tetap dan nilai .
Dalam regresi glm, dimungkinkan untuk mendefinisikan distribusi "kuasi" dengan fungsi varians dari . Jadi di sini model mengasumsikan kesalahan dengan fungsi varians yang sama dengan Beta. Regresi kemudian memperkirakan efek tetap dan "dispersi" dari distribusi kuasi.
Saya mungkin kehilangan sesuatu yang penting, tetapi tampaknya kedua metode ini pada dasarnya identik, mungkin hanya berbeda dalam metode estimasi mereka.
Saya mencoba kedua metode dalam R, mundur pada DV yang disebut "Persamaan", yang ada di interval :
Call:
betareg(formula = Similarity ~ N + NK + Step_ent, data = TapData, link = "logit")
Coefficients (mean model with logit link):
Estimate Std. Error z value Pr(>|z|)
(Intercept) 0.715175 0.067805 10.547 <2e-16 ***
N -0.063806 0.003858 -16.537 <2e-16 ***
NK -0.362716 0.015008 -24.168 <2e-16 ***
Step_ent -0.696895 0.070233 -9.923 <2e-16 ***
Phi coefficients (precision model with identity link):
Estimate Std. Error z value Pr(>|z|)
(phi) 10.6201 0.2084 50.96 <2e-16 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Type of estimator: ML (maximum likelihood)
Log-likelihood: 3817 on 5 Df
Pseudo R-squared: 0.2633
Number of iterations: 18 (BFGS) + 1 (Fisher scoring)
Call:
glm(formula = Similarity ~ N + NK + Step_ent, family = quasi(link = "logit",
variance = "mu(1-mu)"), data = TapData)
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.777451 0.069809 11.137 <2e-16 ***
N -0.069348 0.003983 -17.411 <2e-16 ***
NK -0.364702 0.016232 -22.468 <2e-16 ***
Step_ent -0.704680 0.072491 -9.721 <2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for quasi family taken to be 0.0838547)
Null deviance: 566.25 on 4974 degrees of freedom
Residual deviance: 422.76 on 4971 degrees of freedom
AIC: NA
Number of Fisher Scoring iterations: 4
Koefisien dari kedua model adalah serupa, seperti juga kesalahan standar mereka. The parameter juga mirip: Saya berasumsi bahwa parameter dispersi (seperti yang dilaporkan oleh GLM) dan memiliki hubungan berikut , dalam hal ini mereka 10,6201 dan 10,9254, masing-masing .
Namun, tidak satu pun dari nilai-nilai ini identik.
Apakah ini karena satu-satunya hal yang sebenarnya berbeda dalam kedua metode adalah prosedur estimasi mereka? Atau ada beberapa perbedaan mendasar yang saya lewatkan? Juga, adakah alasan untuk memilih satu metode daripada yang lain?