Selain jawaban yang sangat bagus @ mkt, saya pikir saya akan memberikan contoh khusus untuk Anda lihat sehingga Anda dapat mengembangkan beberapa intuisi.
Hasilkan Data untuk Contoh
Untuk contoh ini, saya membuat beberapa data menggunakan R sebagai berikut:
set.seed(124)
n <- 200
x1 <- rnorm(n, mean=0, sd=0.2)
x2 <- rnorm(n, mean=0, sd=0.5)
eps <- rnorm(n, mean=0, sd=1)
y = 1 + 10*x1 + 0.4*x2 + 0.8*x2^2 + eps
Seperti yang dapat Anda lihat di atas, data berasal dari model , di mana adalah istilah kesalahan acak yang didistribusikan secara normal dengan berarti dan varians tidak dikenal . Selanjutnya, , , dan , sementara . y=β0+β1∗x1+β2∗x2+β3∗x22+ϵϵ0σ2β0=1β1=10β2=0.4β3=0.8σ=1
Visualisasikan Data yang Dihasilkan melalui Coplots
Dengan data yang disimulasikan pada variabel hasil y dan variabel prediktor x1 dan x2, kita dapat memvisualisasikan data ini menggunakan coplots :
library(lattice)
coplot(y ~ x1 | x2,
number = 4, rows = 1,
panel = panel.smooth)
coplot(y ~ x2 | x1,
number = 4, rows = 1,
panel = panel.smooth)
Koplot yang dihasilkan ditunjukkan di bawah ini.
Coplot pertama menunjukkan scatterplots y versus x1 ketika x2 milik empat rentang nilai yang diamati (yang tumpang tindih) dan meningkatkan masing-masing plot scatter ini dengan fit yang mulus, mungkin non-linear yang bentuknya diperkirakan dari data.
Coplot kedua menunjukkan scatterplots y versus x2 ketika x1 milik empat rentang nilai yang diamati (yang tumpang tindih) dan meningkatkan masing-masing plot scatter ini dengan fit halus.
Coplot pertama menunjukkan bahwa masuk akal untuk menganggap bahwa x1 memiliki efek linier pada y ketika mengendalikan x2 dan bahwa efek ini tidak bergantung pada x2.
Coplot kedua menunjukkan bahwa masuk akal untuk menganggap bahwa x2 memiliki efek kuadratik pada y ketika mengendalikan x1 dan bahwa efek ini tidak bergantung pada x1.
Pasang Model yang Ditentukan dengan Benar
Coplots menyarankan untuk mencocokkan model berikut dengan data, yang memungkinkan untuk efek linear x1 dan efek kuadratik dari x2:
m <- lm(y ~ x1 + x2 + I(x2^2))
Bangun Komponen Sisa Komponen Plus untuk Model yang Ditentukan dengan Benar
Setelah model yang ditentukan dengan benar dipasang ke data, kita dapat memeriksa komponen ditambah plot residual untuk setiap prediktor yang termasuk dalam model:
library(car)
crPlots(m)
Komponen ini ditambah plot residual ditunjukkan di bawah ini dan menunjukkan bahwa model tersebut ditentukan dengan benar karena tidak menunjukkan bukti nonlinier, dll. Memang, dalam masing-masing plot, tidak ada perbedaan yang jelas antara garis biru putus-putus yang menunjukkan efek linear dari prediktor yang sesuai, dan garis magenta padat menunjukkan efek non-linear dari prediktor dalam model.
Pas dengan Model yang Tidak Benar
Mari kita mainkan advokat iblis dan katakan bahwa model lm () kita sebenarnya tidak ditentukan dengan benar (mis. Salah spesifikasi), dalam arti bahwa ia menghilangkan istilah kuadratik I (x2 ^ 2):
m.mis <- lm(y ~ x1 + x2)
Bangun Komponen Sisa Komponen Plus untuk Model yang Ditentukan Tidak Benar
Jika kita akan membangun komponen ditambah plot residual untuk model yang tidak ditentukan spesifikasi, kita akan segera melihat saran non-linearitas efek x2 dalam model yang salah ditentukan:
crPlots(m.mis)
Dengan kata lain, seperti yang terlihat di bawah ini, model yang salah ditentukan gagal menangkap efek kuadrat dari x2 dan efek ini muncul di komponen ditambah plot sisa yang sesuai dengan prediktor x2 dalam model yang salah ditentukan.
Kesalahan spesifikasi efek x2 dalam model m. Ini juga akan terlihat jelas ketika memeriksa plot residu yang terkait dengan model ini terhadap masing-masing prediktor x1 dan x2:
par(mfrow=c(1,2))
plot(residuals(m.mis) ~ x1, pch=20, col="darkred")
abline(h=0, lty=2, col="blue", lwd=2)
plot(residuals(m.mis) ~ x2, pch=20, col="darkred")
abline(h=0, lty=2, col="blue", lwd=2)
Seperti yang terlihat di bawah ini, plot residu yang terkait dengan m.mis versus x2 menunjukkan pola kuadratik yang jelas, menunjukkan bahwa model m.m gagal menangkap pola sistematis ini.
Tambahkan Model yang Tidak Ditentukan dengan Benar
Untuk menentukan model m.mis dengan benar, kita perlu menambahkannya sehingga juga termasuk istilah I (x2 ^ 2):
m <- lm(y ~ x1 + x2 + I(x2^2))
Berikut adalah plot residual versus x1 dan x2 untuk model yang ditentukan dengan benar ini:
par(mfrow=c(1,2))
plot(residuals(m) ~ x1, pch=20, col="darkred")
abline(h=0, lty=2, col="blue", lwd=2)
plot(residuals(m) ~ x2, pch=20, col="darkred")
abline(h=0, lty=2, col="blue", lwd=2)
Perhatikan bahwa pola kuadrat yang sebelumnya terlihat dalam plot residual versus x2 untuk model mispecified m.m sekarang telah menghilang dari plot residual versus x2 untuk model m yang ditentukan dengan benar.
Perhatikan bahwa sumbu vertikal semua plot residual versus x1 dan x2 yang ditampilkan di sini harus dilabeli sebagai "Residual". Untuk beberapa alasan, R Studio memotong label itu.