Saya telah belajar bahwa dengan menggunakan vif()metode carpaket, kita dapat menghitung tingkat multikolinieritas input dalam suatu model. Dari wikipedia , jika vifnilainya lebih besar dari 5itu kita dapat mempertimbangkan bahwa input tersebut menderita masalah multikolinieritas. Sebagai contoh, saya telah mengembangkan model regresi linier menggunakan lm()metode dan vif()memberikan sebagai berikut. Seperti yang kita lihat, masukan ub, lbdan tbmenderita multikolinearitas.
vif(lrmodel)
tb ub lb ma ua mb sa sb
7.929757 50.406318 30.826721 1.178124 1.891218 1.364020 2.113797 2.357946
Untuk menghindari masalah multikolinieritas dan dengan demikian untuk membuat model saya lebih kuat, saya telah mengambil interaksi antara ubdan lb, dan sekarang tabel vif model baru adalah sebagai berikut:
tb ub:lb ma mb sa sb ua
1.763331 1.407963 1.178124 1.327287 2.113797 1.860894 1.891218
Tidak ada banyak perbedaan dalam R^2nilai dan juga tidak ada banyak perbedaan dalam kesalahan dari satu-keluar-keluar tes CV di kedua kasus di atas.
Pertanyaan saya adalah:
Apakah boleh untuk menghindari masalah multikolinearitas dengan mengambil interaksi seperti yang ditunjukkan di atas?
Apakah ada cara yang lebih baik untuk menyajikan masalah multikolinieritas dibandingkan dengan hasil metode vif di atas.
Tolong berikan saya saran Anda.
Terima kasih.