Ringkasan lima poin
ya, idenya adalah untuk memberikan ringkasan distribusi yang cepat. Seharusnya kira-kira simetris tentang rata-rata, median harus mendekati 0, nilai 1Q dan 3Q idealnya kira-kira nilai yang hampir sama.
Koefisien danβi^s
Setiap koefisien dalam model adalah variabel acak Gaussian (Normal). The adalah estimasi mean dari distribusi variabel acak, dan standard error adalah akar kuadrat dari varians dari distribusi itu. Ini adalah ukuran dari ketidakpastian dalam estimasi .βi^βi^
Anda dapat melihat bagaimana ini dihitung (baik rumus matematika yang digunakan) di Wikipedia . Perhatikan bahwa program statistik apa pun yang menghargai diri sendiri tidak akan menggunakan persamaan matematika standar untuk menghitung karena melakukannya di komputer dapat menyebabkan hilangnya presisi dalam perhitungan.βi^
t -statistik
The statistik adalah perkiraan ( ) dibagi dengan kesalahan standar mereka ( ), misalnya . Dengan asumsi Anda memiliki model yang sama dalam objek dengan Q Anda:tβi^σi^ti=βi^σi^mod
> mod <- lm(Sepal.Width ~ Petal.Width, data = iris)
maka nilai laporan R dihitung sebagai:t
> tstats <- coef(mod) / sqrt(diag(vcov(mod)))
(Intercept) Petal.Width
53.277950 -4.786461
Di mana coef(mod)
adalah , dan memberikan akar kuadrat dari elemen-elemen diagonal dari matriks kovarians dari parameter model, yang merupakan kesalahan standar dari parameter ( ).βi^sqrt(diag(vcov(mod)))
σi^
Nilai-p adalah probabilitas untuk mencapai asebesar atau lebih besar dari nilai t mutlak yang diamati jika hipotesis nol ( ) benar, di mana adalah . Mereka dihitung sebagai (menggunakan dari atas):|t|H0H0βi=0tstats
> 2 * pt(abs(tstats), df = df.residual(mod), lower.tail = FALSE)
(Intercept) Petal.Width
1.835999e-98 4.073229e-06
Jadi kami menghitung probabilitas ekor atas untuk mencapai nilai kami lakukan dari distribusi dengan derajat kebebasan yang sama dengan derajat sisa kebebasan model. Ini merupakan probabilitas mencapai nilai lebih besar dari nilai absolut dari diamati . Ini dikalikan dengan 2, karena tentu saja dapat besar juga ke arah negatif.ttttt
Kesalahan standar residual
Kesalahan standar residual adalah perkiraan parameter . Asumsi dalam kuadrat terkecil biasa adalah bahwa residu secara individual dijelaskan oleh distribusi Gaussian (normal) dengan rata-rata 0 dan standar deviasi . The berkaitan dengan asumsi varians konstan; setiap residual memiliki varian yang sama dan varian itu sama dengan .σσσσ2
DisesuaikanR2
Adjusted dihitung sebagai:R2
1−(1−R2)n−1n−p−1
disesuaikan adalah hal yang sama dengan , tetapi disesuaikan untuk kompleksitas (yaitu jumlah parameter) dari model. Diberikan model dengan parameter tunggal, dengan tertentu , jika kita menambahkan parameter lain ke model ini, dari model baru harus meningkat, bahkan jika parameter yang ditambahkan tidak memiliki kekuatan statistik. Akun disesuaikan untuk ini dengan memasukkan jumlah parameter dalam model.R2R2R2R2R2
F-statistic
The F is the ratio of two variances (SSR/SSE), the variance explained by the parameters in the model (sum of squares of regression, SSR) and the residual or unexplained variance (sum of squares of error, SSE). You can see this better if we get the ANOVA table for the model via anova()
:
> anova(mod)
Analysis of Variance Table
Response: Sepal.Width
Df Sum Sq Mean Sq F value Pr(>F)
Petal.Width 1 3.7945 3.7945 22.91 4.073e-06 ***
Residuals 148 24.5124 0.1656
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
The Fs are the same in the ANOVA output and the summary(mod)
output. The Mean Sq
column contains the two variances and 3.7945/0.1656=22.91. We can compute the probability of achieving an F that large under the null hypothesis of no effect, from an F-distribution with 1 and 148 degrees of freedom. This is what is reported in the final column of the ANOVA table. In the simple case of a single, continuous predictor (as per your example), F=t2Petal.Width, which is why the p-values are the same. This equivalence only holds in this simple case.