Sejauh ini, saya telah menghapus variabel linier sebagai bagian dari proses persiapan data dengan melihat tabel korelasi dan menghilangkan variabel yang berada di atas ambang batas tertentu. Apakah ada cara yang lebih diterima untuk melakukan ini? Selain itu, saya menyadari bahwa hanya melihat korelasi antara 2 variabel pada suatu waktu tidak ideal, pengukuran seperti VIF memperhitungkan potensi korelasi antar beberapa variabel. Bagaimana orang pergi secara sistematis memilih kombinasi variabel yang tidak menunjukkan multikolinieritas?
Saya memiliki data saya dalam bingkai data panda dan saya menggunakan model sklearn.