Dalam regresi berganda, mengapa interaksi dimodelkan sebagai produk, dan bukan sesuatu yang lain, dari prediktor?

Pertimbangkan regresi linier berganda. Pertanyaan ini mungkin tampak sederhana, tetapi saya mencoba untuk memahami secara intuitif mengapa, katakanlah jika saya memiliki prediktor X1 dan X2, maka interaksi antara prediktor ini dapat ditangkap secara memadai oleh X1 * X2.

Saya tahu istilah interaksi dimodelkan sebagai produk, hanya karena itulah yang diajarkan kepada saya di sekolah, dan itulah yang dikatakan setiap orang untuk dilakukan. Saya menduga mungkin ada beberapa argumen geometris.

Tetapi mengapa suatu produk (misalnya dua fitur numerik, dan bukan kompleksitas tambahan mengalikan dengan satu menjadi variabel dummy sedangkan lainnya adalah numerik dll) akan menangkap interaksi secara memadai?

Mengapa "interaksi" tidak ditangkap dengan baik oleh f (X1, X2) lainnya secara default, bukannya secara khusus X1 * X2?

Saya dapat melihat gagasan bahwa X1 * X2 dapat menangkap situasi di mana tanda-tanda X1 dan X2 adalah sama atau tidak, tetapi lalu mengapa tidak, katakanlah, dengan interaksi standar dimodelkan oleh katakanlah f (X1, X2) = tanda (X1 ) * masuk (X2) bukan f (X1, X2) = X1X2?

Saya menyadari bahwa saya dapat menambahkan f (X1, X2) lainnya ke regresi atau model prediktif apa pun, tetapi menemukan bentuk interaksi yang tepat dengan koding tangan memakan waktu. Bagaimana saya tahu X1X2 adalah tebakan pertama yang bagus?

multiple-regression feature-selection interaction

— Proyek Chilli
sumber

Kita dapat membayangkan "interaksi" antara variabel regressor dan sebagai penyimpangan dari hubungan linear sempurna $x_1$ $x_2$ di mana hubungan antara satu regressor dan responsnya berbeda untuk nilai yang berbeda dari regressor lainnya. "Istilah interaksi" yang biasa, dalam arti harus dijelaskan di bawah, adalah keberangkatan semacam itu "paling sederhana".

Definisi dan Konsep

"Hubungan linear" hanya berarti model yang biasa di mana kita mengandaikan respons berbeda dari kombinasi linear (dan konstanta) dengan independen, kesalahan rata-rata nol $Y$ $x_i$ $\varepsilon:$

\begin{matrix} (*) & Y = β_{0} + β_{1} x_{1} + β_{2} x_{2} + ε . \end{matrix}

$Y = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \varepsilon.\tag{*}$

"Interaksi," dalam arti paling umum, berarti parameter mungkin tergantung pada variabel lain. $\beta_i$

Khususnya, dalam contoh dua regresi ini saja, kita dapat menulis secara umum

β_{1} = β_{1} (x_{2}) and β_{2} = β_{2} (x_{1}) .

$\beta_1 = \beta_1(x_2)\text{ and }\beta_2 = \beta_2(x_1).$

Analisis

Sekarang, dalam praktiknya, tidak ada seorang pun kecuali seorang fisikawan teoretis yang benar-benar percaya bahwa model sepenuhnya akurat: ini merupakan perkiraan terhadap kebenaran dan, kami harap, yang paling dekat. Mengejar ide ini lebih lanjut, kita mungkin bertanya apakah kita dapat memperkirakan fungsi yang dengan dalam fungsi linear jika kita perlu memodelkan beberapa jenis interaksi. Secara khusus, kami dapat mencoba menulis $(*)$ $\beta_i$

β_{1} (x_{2}) = γ_{0} + γ_{1} x_{2} + {tiny error}_{1};

$\beta_1(x_2) = \gamma_0 + \gamma_1 x_2 + \text{ tiny error}_1;$

β_{2} (x_{1}) = δ_{0} + δ_{1} x_{1} + {tiny error}_{2} .

$\beta_2(x_1) = \delta_0 + \delta_1 x_1 + \text{ tiny error}_2.$

Mari kita lihat ke mana arahnya. Memasukkan pendekatan linear ini ke dalam memberi $(*)$

\begin{aligned} Y & = β_{0} + β_{1} (x_{2}) x_{1} + β_{2} (x_{1}) x_{2} + ε \\ = β_{0} + (γ_{0} + γ_{1} x_{2} + {tiny error}_{1}) x_{1} + (δ_{0} + δ_{1} x_{1} + {tiny error}_{2}) x_{2} + ε \\ = β_{0} + γ_{0} x_{1} + δ_{0} x_{2} + (γ_{1} + δ_{1}) x_{1} x_{2} + \dots \end{aligned}

$\eqalign{ Y &= \beta_0 + \beta_1(x_2) x_1 + \beta_2(x_1) x_2 + \varepsilon \\ &= \beta_0 + (\gamma_0 + \gamma_1 x_2 + \text{ tiny error}_1)x_1 + (\delta_0 + \delta_1 x_1 + \text{ tiny error}_2)x_2 + \varepsilon \\ &= \beta_0 + \gamma_0 x_1 + \delta_0 x_2 + (\gamma_1 + \delta_1)x_1 x_2 + \ldots }$

di mana " " mewakili kesalahan total, $\ldots$

\dots = ({tiny error}_{1}) x_{1} + ({tiny error}_{2}) x_{2} + ε .

$\ldots = (\text{ tiny error}_1)x_1 + (\text{ tiny error}_2)x_2 + \varepsilon.$

Dengan sedikit keberuntungan, mengalikan kedua "kesalahan kecil" dengan nilai-nilai khas akan (a) tidak penting dibandingkan dengan atau (b) dapat diperlakukan sebagai istilah acak yang, ketika ditambahkan ke (dan mungkin menyesuaikan istilah konstan untuk mengakomodasi bias sistematis) dapat diperlakukan sebagai istilah kesalahan acak. $x_i$ $\varepsilon$ $\varepsilon$ $\beta_0$

Dalam kedua kasus, dengan perubahan notasi kita melihat bahwa model linear-aproksimasi-ke-an-interaksi ini mengambil bentuk

\begin{matrix} (**) & Y = β_{0} + β_{1} x_{1} + β_{2} x_{2} + β_{12} x_{1} x_{2} + ε, \end{matrix}

$Y = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \beta_{12}x_1 x_2 + \varepsilon,\tag{**}$

yang merupakan model regresi "interaksi" yang biasa. (Perhatikan bahwa tidak ada parameter baru, atau itu sendiri, adalah kuantitas yang sama yang pada awalnya diwakili oleh istilah-istilah tersebut dalam ) $\varepsilon$ $(*).$

Amati bagaimana muncul melalui variasi di kedua parameter asli. Ini menangkap kombinasi dari (i) bagaimana koefisien bergantung pada (yaitu, melalui ) dan (ii) bagaimana koefisien bergantung pada (melalui ). $\beta_{12}$ $x_1$ $x_2$ $\gamma_1$ $x_2$ $x_1$ $\delta_1$

Beberapa konsekuensi

Ini adalah konsekuensi dari analisis ini bahwa jika kita memperbaiki semua kecuali satu dari regresi, maka (secara kondisional ) respons masih merupakan fungsi linier dari sisa regresi. $Y$ Misalnya, jika kita memperbaiki nilai maka kita dapat menulis ulang model interaksi sebagai $x_2,$ $(**)$

Y = (β_{0} + β_{2} x_{2}) + (β_{1} + β_{12} x_{2}) x_{1} + ε,

$Y = (\beta_0 + \beta_2 x_2) + (\beta_1 + \beta_{12} x_2) x_1 + \varepsilon,$

di mana intersep adalah dan kemiringan (yaitu, koefisien ) adalah Ini memungkinkan deskripsi dan wawasan yang mudah. Secara geometris, permukaan diberikan oleh fungsi $\beta_0 + \beta_2 x_2$ $x_1$ $\beta_1 + \beta_2 x_2.$

f (x_{1}, x_{2}) = β_{0} + β_{1} x_{1} + β_{2} x_{2} + β_{12} x_{1} x_{2}

$f(x_1,x_2) = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \beta_{12}x_1x_2$

adalah memerintah: ketika kita mengiris itu sejajar dengan salah satu sumbu koordinat, hasilnya selalu garis. (Namun, permukaan itu sendiri tidak planar kecuali ketika Memang, di mana-mana memiliki lengkungan Gaussian negatif.) $\beta_{12}=0.$

Akhirnya, jika harapan kami untuk (a) atau (b) tidak berjalan dengan baik, kami dapat lebih memperluas perilaku fungsional dari untuk memasukkan persyaratan urutan kedua atau lebih tinggi. Melakukan analisis yang sama menunjukkan ini akan memperkenalkan istilah formulir dan seterusnya ke dalam model. Dalam pengertian ini, termasuk istilah interaksi (produk) hanyalah langkah pertama - dan paling sederhana - menuju pemodelan hubungan nonlinear antara respon dan regresi dengan menggunakan fungsi polinomial. $\beta_i$ $x_1^2,$ $x_2^2,$ $x_1x_2^2,$ $x_1^2x_2,$

Akhirnya, dalam buku pelajarannya EDA (Addison-Wesley 1977), John Tukey menunjukkan bagaimana pendekatan ini dapat dilakukan jauh lebih umum. Setelah "re-expressing" pertama (yaitu, menerapkan transformasi non-linear yang sesuai untuk) regressor dan respon, sering terjadi bahwa salah satu model berlaku untuk variabel yang diubah atau, jika tidak, model dapat dengan mudah cocok (menggunakan analisis residu yang kuat). Hal ini memungkinkan berbagai macam hubungan nonlinear untuk diekspresikan dan ditafsirkan sebagai respons linear bersyarat. $(*)$ $(**)$

— whuber
sumber

Ini adalah jawaban terinci yang indah. Terima kasih. Selain itu, saya terus melihat referensi ke buku Tukey yang muncul di situs ini ... meskipun sudah sangat tua. Mungkin sudah waktunya untuk membacanya.

— ChilliProject