Saya telah belajar bahwa dengan menggunakan vif()
metode car
paket, kita dapat menghitung tingkat multikolinieritas input dalam suatu model. Dari wikipedia , jika vif
nilainya lebih besar dari 5
itu kita dapat mempertimbangkan bahwa input tersebut menderita masalah multikolinieritas. Sebagai contoh, saya telah mengembangkan model regresi linier menggunakan lm()
metode dan vif()
memberikan sebagai berikut. Seperti yang kita lihat, masukan ub
, lb
dan tb
menderita multikolinearitas.
vif(lrmodel)
tb ub lb ma ua mb sa sb
7.929757 50.406318 30.826721 1.178124 1.891218 1.364020 2.113797 2.357946
Untuk menghindari masalah multikolinieritas dan dengan demikian untuk membuat model saya lebih kuat, saya telah mengambil interaksi antara ub
dan lb
, dan sekarang tabel vif model baru adalah sebagai berikut:
tb ub:lb ma mb sa sb ua
1.763331 1.407963 1.178124 1.327287 2.113797 1.860894 1.891218
Tidak ada banyak perbedaan dalam R^2
nilai dan juga tidak ada banyak perbedaan dalam kesalahan dari satu-keluar-keluar tes CV di kedua kasus di atas.
Pertanyaan saya adalah:
Apakah boleh untuk menghindari masalah multikolinearitas dengan mengambil interaksi seperti yang ditunjukkan di atas?
Apakah ada cara yang lebih baik untuk menyajikan masalah multikolinieritas dibandingkan dengan hasil metode vif di atas.
Tolong berikan saya saran Anda.
Terima kasih.