Saya bertanya-tanya apa hubungan yang tepat antara parsial dan koefisien dalam model linier dan apakah saya harus menggunakan hanya satu atau keduanya untuk menggambarkan pentingnya dan pengaruh faktor.
Sejauh yang saya tahu, dengan summary
saya mendapatkan estimasi koefisien, dan dengan anova
jumlah kuadrat untuk setiap faktor - proporsi jumlah kuadrat dari satu faktor dibagi dengan jumlah jumlah kuadrat ditambah residu adalah parsial (kode berikut ada di ).R
library(car)
mod<-lm(education~income+young+urban,data=Anscombe)
summary(mod)
Call:
lm(formula = education ~ income + young + urban, data = Anscombe)
Residuals:
Min 1Q Median 3Q Max
-60.240 -15.738 -1.156 15.883 51.380
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -2.868e+02 6.492e+01 -4.418 5.82e-05 ***
income 8.065e-02 9.299e-03 8.674 2.56e-11 ***
young 8.173e-01 1.598e-01 5.115 5.69e-06 ***
urban -1.058e-01 3.428e-02 -3.086 0.00339 **
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 26.69 on 47 degrees of freedom
Multiple R-squared: 0.6896, Adjusted R-squared: 0.6698
F-statistic: 34.81 on 3 and 47 DF, p-value: 5.337e-12
anova(mod)
Analysis of Variance Table
Response: education
Df Sum Sq Mean Sq F value Pr(>F)
income 1 48087 48087 67.4869 1.219e-10 ***
young 1 19537 19537 27.4192 3.767e-06 ***
urban 1 6787 6787 9.5255 0.003393 **
Residuals 47 33489 713
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Ukuran koefisien untuk 'young' (0,8) dan 'urban' (-0,1, sekitar 1/8 dari yang sebelumnya, mengabaikan '-') tidak cocok dengan varian yang dijelaskan ('young' ~ 19500 dan 'urban' ~ 6790, yaitu sekitar 1/3).
Jadi saya pikir saya perlu skala data saya karena saya berasumsi bahwa jika rentang faktor jauh lebih luas daripada rentang faktor lain koefisien mereka akan sulit untuk dibandingkan:
Anscombe.sc<-data.frame(scale(Anscombe))
mod<-lm(education~income+young+urban,data=Anscombe.sc)
summary(mod)
Call:
lm(formula = education ~ income + young + urban, data = Anscombe.sc)
Residuals:
Min 1Q Median 3Q Max
-1.29675 -0.33879 -0.02489 0.34191 1.10602
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 2.084e-16 8.046e-02 0.000 1.00000
income 9.723e-01 1.121e-01 8.674 2.56e-11 ***
young 4.216e-01 8.242e-02 5.115 5.69e-06 ***
urban -3.447e-01 1.117e-01 -3.086 0.00339 **
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 0.5746 on 47 degrees of freedom
Multiple R-squared: 0.6896, Adjusted R-squared: 0.6698
F-statistic: 34.81 on 3 and 47 DF, p-value: 5.337e-12
anova(mod)
Analysis of Variance Table
Response: education
Df Sum Sq Mean Sq F value Pr(>F)
income 1 22.2830 22.2830 67.4869 1.219e-10 ***
young 1 9.0533 9.0533 27.4192 3.767e-06 ***
urban 1 3.1451 3.1451 9.5255 0.003393 **
Residuals 47 15.5186 0.3302
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Tapi itu tidak benar-benar membuat perbedaan, parsial dan ukuran koefisien (ini sekarang koefisien terstandarisasi ) masih tidak cocok:
22.3/(22.3+9.1+3.1+15.5)
# income: partial R2 0.446, Coeff 0.97
9.1/(22.3+9.1+3.1+15.5)
# young: partial R2 0.182, Coeff 0.42
3.1/(22.3+9.1+3.1+15.5)
# urban: partial R2 0.062, Coeff -0.34
Jadi apakah adil untuk mengatakan bahwa 'muda' menjelaskan perbedaan tiga kali lebih banyak daripada 'perkotaan' karena parsial untuk 'muda' adalah tiga kali lipat dari 'perkotaan'? Mengapa koefisien 'muda' maka tidak tiga kali lipat dari 'urban' (mengabaikan tanda)?
Saya kira jawaban untuk pertanyaan ini kemudian juga akan memberi saya jawaban untuk pertanyaan awal saya: Haruskah saya menggunakan sebagian atau koefisien untuk menggambarkan kepentingan relatif faktor? (Mengabaikan arah pengaruh - tanda - untuk saat ini.)
Edit:
Parsial muncul eta-squared menjadi nama lain untuk apa yang saya disebut parsial . etasq {heplots} adalah fungsi yang berguna yang menghasilkan hasil yang serupa:
etasq(mod)
Partial eta^2
income 0.6154918
young 0.3576083
urban 0.1685162
Residuals NA