Apa perbedaan antara regresi beta dan quasi glm dengan varians =

Pertama izinkan saya memberi latar belakang; Saya akan meringkas pertanyaan saya di bagian akhir.

Distribusi Beta, diparameterisasi dengan rata-rata $\mu$ dan , memiliki , di mana adalah fungsi varians. $\phi$ $\operatorname{Var}(Y) = \operatorname{V}(\mu)/(\phi+1)$ $\operatorname{V}(\mu) = \mu(1-\mu)$

Dalam regresi beta (misalnya, menggunakan paket betareg dalam R), regresi mengasumsikan kesalahan yang didistribusikan beta dan memperkirakan efek tetap dan nilai . $\phi$

Dalam regresi glm, dimungkinkan untuk mendefinisikan distribusi "kuasi" dengan fungsi varians dari . Jadi di sini model mengasumsikan kesalahan dengan fungsi varians yang sama dengan Beta. Regresi kemudian memperkirakan efek tetap dan "dispersi" dari distribusi kuasi. $\mu(1-\mu)$

Saya mungkin kehilangan sesuatu yang penting, tetapi tampaknya kedua metode ini pada dasarnya identik, mungkin hanya berbeda dalam metode estimasi mereka.

Saya mencoba kedua metode dalam R, mundur pada DV yang disebut "Persamaan", yang ada di interval : $(0,1)$

Call:
betareg(formula = Similarity ~ N + NK + Step_ent, data = TapData, link = "logit")

Coefficients (mean model with logit link):
             Estimate Std. Error z value Pr(>|z|)    
(Intercept)  0.715175   0.067805  10.547   <2e-16 ***
N           -0.063806   0.003858 -16.537   <2e-16 ***
NK          -0.362716   0.015008 -24.168   <2e-16 ***
Step_ent    -0.696895   0.070233  -9.923   <2e-16 ***

Phi coefficients (precision model with identity link):
      Estimate Std. Error z value Pr(>|z|)    
(phi)  10.6201     0.2084   50.96   <2e-16 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 

Type of estimator: ML (maximum likelihood)
Log-likelihood:  3817 on 5 Df
Pseudo R-squared: 0.2633
Number of iterations: 18 (BFGS) + 1 (Fisher scoring) 


Call:
glm(formula = Similarity ~ N + NK + Step_ent, family = quasi(link = "logit", 
variance = "mu(1-mu)"), data = TapData)

Coefficients:
             Estimate Std. Error t value Pr(>|t|)    
(Intercept)  0.777451   0.069809  11.137   <2e-16 ***
N           -0.069348   0.003983 -17.411   <2e-16 ***
NK          -0.364702   0.016232 -22.468   <2e-16 ***
Step_ent    -0.704680   0.072491  -9.721   <2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

(Dispersion parameter for quasi family taken to be 0.0838547)

    Null deviance: 566.25  on 4974  degrees of freedom
Residual deviance: 422.76  on 4971  degrees of freedom
AIC: NA

Number of Fisher Scoring iterations: 4

Koefisien dari kedua model adalah serupa, seperti juga kesalahan standar mereka. The parameter juga mirip: Saya berasumsi bahwa parameter dispersi (seperti yang dilaporkan oleh GLM) dan memiliki hubungan berikut , dalam hal ini mereka 10,6201 dan 10,9254, masing-masing . $\phi$ $\phi$ $\phi = 1/\text{Dispersion} - 1$

Namun, tidak satu pun dari nilai-nilai ini identik.

Apakah ini karena satu-satunya hal yang sebenarnya berbeda dalam kedua metode adalah prosedur estimasi mereka? Atau ada beberapa perbedaan mendasar yang saya lewatkan? Juga, adakah alasan untuk memilih satu metode daripada yang lain?

— Andrew Milne
sumber

Kedengarannya seperti Anda menemukan kembali regresi logistik fraksional ...

— The Laconic

Anda benar bahwa fungsi mean dan varians memiliki bentuk yang sama.

Ini menunjukkan bahwa dalam sampel yang sangat besar, selama Anda tidak memiliki pengamatan yang benar-benar mendekati 1 atau 0, mereka cenderung cenderung memberikan jawaban yang sangat mirip karena dalam situasi itu pengamatan akan memiliki bobot relatif yang serupa.

Tetapi dalam sampel yang lebih kecil di mana beberapa proporsi kontinu mendekati batas, perbedaannya dapat tumbuh lebih besar karena bobot relatif yang diberikan oleh kedua pendekatan akan berbeda; jika titik-titik yang mendapatkan bobot berbeda juga relatif berpengaruh (lebih ekstrim dalam ruang-x), perbedaan dalam beberapa kasus mungkin menjadi substansial.

Dalam beta-regresi Anda akan memperkirakan melalui ML, dan dalam kasus model kuasibinomial - setidaknya satu diperkirakan dalam R, perhatikan komentar ini dalam bantuan:

Keluarga quasibinomial dan quasipoisson berbeda dari keluarga binomial dan poisson hanya dalam hal parameter dispersi tidak tetap pada satu, sehingga mereka dapat memodelkan dispersi berlebih. Untuk kasus binomial lihat McCullagh dan Nelder (1989, hlm. 124–8). Meskipun mereka menunjukkan bahwa ada (di bawah beberapa batasan) model dengan varians proporsional berarti seperti dalam model kuasi-binomial, perhatikan bahwa GLM tidak menghitung estimasi kemungkinan maksimum dalam model itu. Perilaku S lebih dekat ke kuasi-varian.

Saya pikir di betareg Anda bisa mendapatkan $h_{ii}$ nilai, dan Anda juga bisa untuk GLM, jadi pada dua model yang cocok Anda dapat membandingkan perkiraan pengaruh relatif masing-masing pengamatan (/ "berat") pada nilai terpasangnya sendiri (karena komponen lain dari rasio pengaruh harus dibatalkan, atau hampir demikian). Ini harus memberi kesan cepat pengamatan mana yang paling banyak dipandang berbeda oleh kedua pendekatan tersebut. [Seseorang mungkin melakukannya lebih tepatnya dengan benar-benar mengutak-atik pengamatan satu per satu dan melihat perubahan kecocokan per unit perubahan nilai]

Perhatikan bahwa sketsa betareg memberikan beberapa diskusi tentang koneksi antara model-model ini pada akhir bagian 2.

— Glen_b -Reinstate Monica
sumber

Saya berasumsi dengan "sampel" yang Anda maksudkan dengan pengamatan keberhasilan dan kegagalan? "Kesamaan" DV saya bukan proporsi keberhasilan; itu adalah kesamaan cosinus atau dua vektor berdimensi sangat tinggi, dan dibatasi antara 0 dan 1 tanpa kemungkinan nilai 0 atau 1. Distribusi beta tampaknya merupakan pilihan yang masuk akal untuk data tersebut. Alasan saya tertarik untuk mentransfer ke glm adalah karena saya ingin menambahkan efek acak juga, yang tidak mungkin di betareg. Saya mencoba memastikan apakah, dalam skenario seperti milik saya, kuasi dengan mu (1-mu) pada dasarnya sama.

— Andrew Milne

Maksud saya sampel dalam pengertian statistik biasa , tetapi saya jelas tidak bermaksud sampel jumlah. Maksud saya sampel nilai kontinu antara 0 dan 1 (yang umumnya merupakan proporsi untuk regresi beta). Jika saya berbicara tentang pemodelan proporsi hitungan saya tidak akan berbicara tentang masalah dengan "mendekati" 0 atau 1, saya akan berbicara tentang masalah yang lebih besar dengan tepat pada 0 dan 1.

— Glen_b -Reinstate Monica

Terimakasih atas klarifikasinya. Saya mungkin kehilangan sesuatu yang jelas, tetapi tidak jelas bagi saya mengapa ukuran sampel (dalam arti tradisional yang Anda maksud) relevan di sini, atau mengapa nilai yang mendekati 0 atau 1 akan diperlakukan berbeda dalam pendekatan beta versus pseudo glm. Bisakah Anda menguraikan sedikit?

— Andrew Milne

@Andrew Dengan meningkatnya ukuran sampel, kemungkinan log menjadi lebih dekat kuadrat dekat maksimum / perkiraan untuk model ini menjadi lebih dekat dengan Gaussian multivarian, dan dalam kasus itu, momen ke urutan kedua cenderung menentukan perilaku. Itu sebabnya dengan besar

n

$n$ mereka harus cenderung memberikan jawaban yang sama. Namun, fungsi yang dioptimalkan benar-benar berbeda pada ukuran sampel hingga - dengan perbedaan relatif menjadi lebih penting pada ekstrem. Akibatnya, jika Anda mendapatkan pengamatan sangat dekat dengan 0 atau 1, itu mungkin membuat perbedaan dengan perkiraan, terutama jika

n

$n$ tidak begitu besar.

— Glen_b -Reinstate Monica