Jawaban yang ditawarkan memberi saya beberapa ide tentang apa yang terjadi di sini. Saya percaya mungkin ada beberapa kesalahan yang dilakukan secara tidak sengaja. Lihat apakah cerita berikut ini masuk akal: Untuk memulai, saya pikir mungkin ada hubungan yang kuat antara X & Y dalam data (berikut adalah beberapa kode dan plot):
set.seed(5)
wage <- rlnorm(1000, meanlog=2.3, sdlog=.5)
something_else <- .7*wage + rnorm(1000, mean=0, sd=1)
plot(wage, something_else, pch=3, col="red", main="Plot X vs. Y")
Tetapi karena kesalahan Y diprediksi hanya dari mean. Menggabungkan ini, residu dari model hanya rata-rata diplot terhadap X, meskipun apa yang dimaksudkan adalah plot terhadap nilai-nilai yang sesuai (kode & plot):
meanModel <- lm(something_else~1)
windows()
plot(wage, meanModel$residuals, pch=3, col="red",
main="Plot of residuals from Mean only Model against X")
abline(h=0, lty="dotted")
Kita dapat memperbaikinya dengan mencocokkan model yang sesuai dan memplot residu dari itu (kode & plot):
appropriateModel <- lm(something_else~wage)
windows()
plot(appropriateModel$fitted.values, appropriateModel$residuals, pch=3, col="red",
main="Plot of residuals from the appropriate\nmodel against fitted values")
lines(lowess(appropriateModel$residuals~appropriateModel$fitted.values))
Ini sepertinya jenis kesalahan yang saya buat ketika saya mulai.