Model yang Anda kerjakan mengambil formulir
ysaya= μ + β1x1 i+ β2x2 i+ ϵsaya (1)
di mana adalah istilah kesalahan yang diasumsikan berasal dari distribusi normal rata-rata nol.ϵsaya
Anda telah memasang model dan Anda telah mendapatkan taksiran: , , dan . β 1 β 2μ^β^1β^2
Sekarang, jika Anda memperbaiki nilai kovariat dalam rentang mereka, katakanlah dan , nilai prediksi untuk dapat diperoleh dengan menghitung x ⋆ 2 i y ix⋆1 ix⋆2 iysaya
y⋆saya= μ^+ β^1x⋆1 i+ β^2x⋆2 i (2)
Jika model Anda sangat cocok dengan data Anda, maka nilai prediksi adalah nilai aktual. Tetapi, secara umum, nilai-nilai tidak dapat secara tepat diperoleh sebagai kombinasi linear sederhana dari nilai-nilai (" Semua model salah, tetapi beberapa berguna "). Dalam istilah lain, varians dari istilah kesalahan dalam (1) tidak nol secara umum. Tetapi, pada dasarnya, model (1) adalah perkiraan yang baik jika residual (atau versi yang diskalakan) adalah "kecil".x y i - y ⋆ iyxysaya- y⋆saya
Edit
Dalam komentar Anda, Anda bertanya apa yang predict()
sebenarnya dilakukannya. Ini adalah contoh ilustrasi sederhana.
#generate a simple illustrative data set
> x <- runif(10)
> y <- 5 + 2.7 * x + rnorm(10, mean=0, sd=sqrt(0.15))
>
> #fit the model and store the coefficients
> regLin <- lm(y~x)
> coef <- coef(regLin)
>
> #use the predict() function
> y_star2 <- predict(regLin)
> #use equation (2)
> y_star1 <- coef[1] + coef[2] * x
> #compare
> cbind(y, y_star1, y_star2)
y y_star1 y_star2
1 7.100217 6.813616 6.813616
2 6.186333 5.785473 5.785473
3 7.141016 7.492979 7.492979
4 5.121265 5.282990 5.282990
5 4.681924 4.849776 4.849776
6 6.102339 6.106751 6.106751
7 7.223215 7.156512 7.156512
8 5.158546 5.253380 5.253380
9 7.160201 7.198074 7.198074
10 5.555289 5.490793 5.490793
x1
danx2
merupakan prediktor berkelanjutan, bukan yang kategorikal. (Mengapa tidak menunjukkan intersepsi oleh ?)