Ada alasan mengapa konsultan statistik Anda tidak dapat menjelaskan mengapa memasukkan interaksi ke dalam model linier dapat mempengaruhi struktur korelasi: itu tergantung pada keadaan dan umumnya tidak benar bahwa ada efek buruk. Lihat saja dataset yang ditunjukkan dalam matriks scatterplot di bawah ini untuk melihat semua cara yang berbeda dari dua variabel yang mungkin terkait dengan produk mereka.
Sisa dari posting ini menjelaskan bagaimana angka-angka itu diproduksi dan mungkin memberikan lebih banyak wawasan tentang situasi.
Pertama, mari kita perjelas: menulis x3=x1x2, Anda memiliki regresi berganda yang melibatkan tiga variabel x1,x2,x3. Ada atau tidaknya masalah collinearity tergantung pada hubungan linear antara xi. Itu universal.
Yang istimewa dari masalah ini adalah hubungan keduanyax3 Dan lainnya xi; yaitu itu x3=x1x2. Jadi, jika ada yang menyarankan Anda untuk berhati-hati, itu pasti karena harapan bahwa hubungan multiplikasi ini secara matematis memerlukan semacam multikolinieritas di antara semuaxi.
Ini tidak benar, seperti yang dapat ditunjukkan dengan menunjukkan semua pola yang mungkin. Saya tidak ingin melelahkan Anda dengan kesedihan melalui semua kemungkinan, jadi izinkan saya membuat sketsa beberapa yang paling ilustratif. Alat dasar yang akan saya pakai dalam penelitian ini adalah observasi yang berkorelasi antar variabelx1,x2 tetap tidak berubah ketika xisecara terpisah mengalami transformasi linier. Artinya, kita dapat dengan bebas mengalikan variabel dengan konstanta dan menambahkan konstanta lain ke hasil tanpa mengubah korelasinya. Namun, operasi ini dapat sangat mengubah korelasi di antara keduanyax1x2 dan xi.
(Hampir) produk konstan
Itu mungkin untuk x1x2menjadi konstan (yang, ketika regresi menyertakan konstanta, akan bermasalah). Untuk membuat contoh, cukup buat nilai bukan nol untukx1 dan mendefinisikan x2=c/x1. Produk mereka sama c oleh konstruksi.
Anda dapat mengganggu contoh ini dengan mengubah c≠0 menjadi variabel acak dengan nilai yang mendekati c. Melakukan ini akan memperkenalkan sedikit korelasi antara xidan produk mereka, tetapi tidak banyak. Di sini, misalnya, adalah contoh di manax1 diambil dari Gamma(5) distribusi dan c memiliki distribusi normal dengan mean 1 dan standar deviasi keadilan 1/100:
walaupun xi memiliki korelasi ρ1⋅2=−0.87 dalam contoh ini, korelasinya dengan x1x2 hanya −0.06 dan 0.00.
Oleh karena itu, meskipun mungkin ada sedikit masalah dalam menggunakan keduanya x1 dan x2 dalam model linier, termasuk x1x2 tidak mungkin memperburuk itu.
Produk tidak konstan
Untuk membuat perhitungan lebih jelas, kami mungkin juga menganggap ximemiliki varian unit. Biarkan varians darix1x2 menjadi τ2 dan tulis ρ12⋅i untuk korelasi antara x1x2 dan xi. Mari kita hitung apa yang terjadi pada korelasi ini ketika konstanta ci dikurangkan dari xi. Karena xi memainkan peran simetris sempurna (hanya swap "1"untuk"2"Dalam indeks), cukup untuk menghitung korelasinya dengan x1:
Cor((x1−c1)(x2−c2),x1)=Cov((x1−c1)(x2−c2),x1)Var(x1−c1)(x2−c2)Varx1−−−−−−−−−−−−−−−−−−−−−−−√=Cov(x1x2−c2x1−c1x2+c1c2,x1)Var(x1x2−c1x2−c2x1+c1c2)−−−−−−−−−−−−−−−−−−−−−−−−−√=τρ12⋅1−c2−c1ρ1⋅2τ2−c1ρ1⋅2−c2−2c1ρ12⋅2−2c2ρ12⋅1+2c1c2ρ1⋅2−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−√.(*)
Tidak ada korelasi dengan produk
Terlepas dari apa korelasi antara keduanya ximungkin, kita bisa memilih(c1,c2) untuk membuat produk tidak berkorelasi dengan xi.
Dari analisis sebelumnya, ini akan tercapai ketika pembilang (∗) adalah nol untuk i=1,2:
{0=τρ12⋅1−c2−c1ρ1⋅20=τρ12⋅2−c1−c2ρ1⋅2
Kapan ρ21⋅2≠1, sistem persamaan ini di (c1,c2)memiliki solusi unik. Di sini, misalnya, adalah sebar sebaran dataset100 nilai di mana (xi) memiliki distribusi normal bivariat dengan korelasi ρ1⋅2=−0.99 tetapi xi memiliki korelasi nol dengan x1x2:
Karena x1x2 tidak berkorelasi dengan ("ortogonal ke") keduanya xi, memasukkannya ke dalam model linear apa pun tidak akan menimbulkan masalah sama sekali.
Seperti contoh ini menyarankan, situasi ini adalah norma karena cenderung terjadi ketika xitelah terpusat. Dengan kata lain, jika Anda memusatkan variabel Anda sebelum membuat interaksi Anda biasanya tidak akan mengalami masalah dengan collinearity tambahan.
Korelasi yang kuat dengan produk
Persamaan (∗)juga dapat diselesaikan untuk menghasilkan korelasi yang kuat. Kita bahkan tidak perlu melangkah lebih jauh untuk menyelesaikan persamaan dengan tepat (yang menantang), karena ada jalan pintas sederhana: dengan menskalakan kembali salah satuximenjadi hampir nol dan menambahkan konstanta untuk itu, kami tidak akan mengubah korelasinya, tetapi kemudian produk akan hampir sama dengan kelipatan dari yang lain darixi, dengan demikian membuat mereka sangat berkorelasi.
Ini adalah contoh berdasarkan yang sebelumnya. Dalam contoh ini,x2 diubah menjadi 1+x2/100 maka x1x2 kira-kira sama dengan x1, membuatnya sangat berkorelasi positif x1x2. Memang, ρ12⋅1=0.999878 dan ρ12⋅2=−0.9898793 dalam contoh ini.