Interaksi diperlukan secara eksplisit dalam model regresi karena formula tidak termasuk interaksi apa pun per se. Lebih tepatnya, model regresi akan selalu linear dalam inputnya, sedangkan interaksi adalah kombinasi fitur yang nonlinier.Xi∗Xj
Cara paling sederhana untuk melihat ini adalah melalui XOR-Problem, model regresi tanpa interaksi apa pun tidak dapat menyelesaikan ini, karena memerlukan kombinasi nonlinier.
KNN dan SVM di sisi lain (dan banyak model lainnya juga) adalah penduga fungsi universal. Ini berarti bahwa mereka tidak hanya dapat menggabungkan input mereka secara linear, tetapi juga dengan cara non-linear yang memungkinkan. Itu diberi cukup lapisan atau kernel yang sesuai, mereka pada dasarnya dapat "membuat" interaksi mereka sendiri, persis seperti yang mereka butuhkan. Namun, jika Anda tahu atau mengharapkan interaksi spesifik menjadi penting, Anda masih dapat menggunakannya sebagai input untuk memandu model ke arah yang benar.
Demikian pula, model berbasis pohon dapat diartikan sebagai hanya terdiri dari interaksi. Pada dasarnya, split dalam model berbasis pohon menciptakan interaksi spesifik dengan semua variabel sebelumnya.
Jadi untuk memutuskan interaksi mana yang akan digunakan, untuk model "daya tinggi" yang cukup (yaitu yang merupakan penduga fungsi universal), Anda tidak memerlukannya dan Anda dapat membiarkan model melakukan keajaibannya sendiri. Untuk model lain tergantung. Ada beberapa teknik yang tersedia untuk memandu keputusan, seperti CHAID atau regresi bertahap. CHAID juga bekerja dengan sejumlah besar fitur, untuk regresi bertahap, ia mungkin hilang dalam sejumlah interaksi yang mungkin. Mengingat bahwa jika Anda memiliki fitur , ada kemungkinan interaksi (menghitung tidak hanya interaksi dua arah tetapi juga urutan lebih tinggi).N2N