Cara terbaik untuk memahami istilah-istilah ini adalah dengan melakukan perhitungan regresi dengan tangan. Saya menulis dua jawaban yang berkaitan erat (di sini dan di sini ), namun mereka mungkin tidak sepenuhnya membantu Anda memahami kasus khusus Anda. Namun tetap membacanya. Mungkin mereka juga akan membantu Anda membuat konsep istilah-istilah ini lebih baik.
Dalam regresi (atau ANOVA), kami membangun model berdasarkan dataset sampel yang memungkinkan kami untuk memprediksi hasil dari populasi yang menarik. Untuk melakukannya, tiga komponen berikut dihitung dengan regresi linier sederhana dari komponen yang lain dapat dihitung, misalnya mean kuadrat, F-nilai, R2 (juga disesuaikan R2 ), dan standard error residual ( R SE ):
- Total jumlah kuadrat ( SSt o t a l )
- jumlah sisa kotak ( SSr e s i du a l )
- jumlah model kuadrat ( SSm o de l )
Masing-masing dari mereka menilai seberapa baik model menggambarkan data dan jumlah dari jarak kuadrat dari titik data ke model pas (digambarkan sebagai garis merah dalam plot di bawah).
The SSt o t a l menilai seberapa baik cocok mean data. Kenapa itu berarti? Karena mean adalah model paling sederhana yang dapat kami muat dan karenanya berfungsi sebagai model yang dibandingkan dengan garis regresi kuadrat-terkecil. Plot ini menggunakan cars
dataset menggambarkan bahwa:
SSr e s i du a l
SSm o de lSSt o t a lSSr e s i du a l
Untuk menjawab pertanyaan Anda, pertama mari kita hitung istilah-istilah yang ingin Anda pahami dimulai dengan model dan output sebagai referensi:
# The model and output as reference
m1 <- lm(dist ~ speed, data = cars)
summary(m1)
summary.aov(m1) # To get the sums of squares and mean squares
Jumlah kuadrat adalah jarak kuadrat dari masing-masing titik data ke model:
# Calculate sums of squares (total, residual and model)
y <- cars$dist
ybar <- mean(y)
ss.total <- sum((y-ybar)^2)
ss.total
ss.residual <- sum((y-m1$fitted)^2)
ss.residual
ss.model <- ss.total-ss.residual
ss.model
Kuadrat rata-rata adalah jumlah kuadrat yang dirata-ratakan oleh derajat kebebasan:
# Calculate degrees of freedom (total, residual and model)
n <- length(cars$speed)
k <- length(m1$coef) # k = model parameter: b0, b1
df.total <- n-1
df.residual <- n-k
df.model <- k-1
# Calculate mean squares (note that these are just variances)
ms.residual <- ss.residual/df.residual
ms.residual
ms.model<- ss.model/df.model
ms.model
Jawaban saya untuk pertanyaan Anda:
Q1:
- Jadi ini sebenarnya jarak rata-rata nilai yang diamati dari garis lm?
R SEM.Sr e s i du a l
# Calculate residual standard error
res.se <- sqrt(ms.residual)
res.se
SSr e s i du a lM.Sr e s i du a l SSr e s i du a lR SEmewakili jarak rata-rata data yang diamati dari model. Secara intuitif, ini juga masuk akal karena jika jaraknya lebih kecil, model Anda juga lebih baik.
Q2:
- Sekarang saya semakin bingung karena jika RSE memberi tahu kami seberapa jauh titik-titik pengamatan kami menyimpang dari garis regresi, maka RSE yang rendah benar-benar memberi tahu kami "model Anda cocok berdasarkan pada titik data yang diamati" -> dengan demikian seberapa baik model kami cocok , jadi apa perbedaan antara R kuadrat dan RSE?
R2SSm o de lSSt o t a l
# R squared
r.sq <- ss.model/ss.total
r.sq
R2SSt o t a lSSm o de l
R SER2R SE
R2
Q3:
- Benarkah kita dapat memiliki nilai F yang menunjukkan hubungan kuat yaitu NON LINEAR sehingga RSE kita tinggi dan R kuadrat kita rendah
FM.Sm o de lM.Sr e s i du a l
# Calculate F-value
F <- ms.model/ms.residual
F
# Calculate P-value
p.F <- 1-pf(F, df.model, df.residual)
p.F
F
Pertanyaan ketiga Anda agak sulit untuk dipahami tetapi saya setuju dengan kutipan yang Anda berikan.