Itu tergantung pada tujuan inferensi. Jika Anda ingin membuat kesimpulan apakah ada interaksi, misalnya, dalam konteks sebab akibat (atau, lebih umum, jika Anda ingin menginterpretasikan koefisien interaksi), rekomendasi dari profesor Anda ini memang masuk akal, dan itu berasal dari fakta bahwa kesalahan spesifikasi bentuk fungsional dapat menyebabkan kesimpulan yang salah tentang interaksi .
Berikut adalah contoh sederhana di mana tidak ada istilah interaksi antara dan dalam persamaan struktural , namun, jika Anda tidak menyertakan istilah kuadrat , Anda akan salah menyimpulkan bahwa berinteraksi dengan padahal sebenarnya tidak t.x1x2yx1x1x2
set.seed(10)
n <- 1e3
x1 <- rnorm(n)
x2 <- x1 + rnorm(n)
y <- x1 + x2 + x1^2 + rnorm(n)
summary(lm(y ~ x1 + x2 + x1:x2))
Call:
lm(formula = y ~ x1 + x2 + x1:x2)
Residuals:
Min 1Q Median 3Q Max
-3.7781 -0.8326 -0.0806 0.7598 7.7929
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.30116 0.04813 6.257 5.81e-10 ***
x1 1.03142 0.05888 17.519 < 2e-16 ***
x2 1.01806 0.03971 25.638 < 2e-16 ***
x1:x2 0.63939 0.02390 26.757 < 2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 1.308 on 996 degrees of freedom
Multiple R-squared: 0.7935, Adjusted R-squared: 0.7929
F-statistic: 1276 on 3 and 996 DF, p-value: < 2.2e-16
Ini dapat ditafsirkan sebagai kasus bias variabel yang dihilangkan, dan di sini adalah variabel yang dihilangkan. Jika Anda kembali dan memasukkan istilah kuadrat dalam regresi Anda, interaksi yang tampak menghilang.x21
summary(lm(y ~ x1 + x2 + x1:x2 + I(x1^2)))
Call:
lm(formula = y ~ x1 + x2 + x1:x2 + I(x1^2))
Residuals:
Min 1Q Median 3Q Max
-3.4574 -0.7073 0.0228 0.6723 3.7135
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -0.0419958 0.0398423 -1.054 0.292
x1 1.0296642 0.0458586 22.453 <2e-16 ***
x2 1.0017625 0.0309367 32.381 <2e-16 ***
I(x1^2) 1.0196002 0.0400940 25.430 <2e-16 ***
x1:x2 -0.0006889 0.0313045 -0.022 0.982
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 1.019 on 995 degrees of freedom
Multiple R-squared: 0.8748, Adjusted R-squared: 0.8743
F-statistic: 1739 on 4 and 995 DF, p-value: < 2.2e-16
Tentu saja, alasan ini tidak hanya berlaku untuk istilah kuadrat, tetapi salah spesifikasi bentuk fungsional secara umum. Tujuannya di sini adalah untuk memodelkan fungsi harapan bersyarat secara tepat untuk menilai interaksi. Jika Anda membatasi diri untuk pemodelan dengan regresi linier, maka Anda harus memasukkan istilah-istilah nonlinier ini secara manual. Tetapi alternatifnya adalah dengan menggunakan pemodelan regresi yang lebih fleksibel, seperti misalnya regresi ridge kernel .