Mempertimbangkan multikolinier adalah penting dalam analisis regresi karena, dalam ekstrem , secara langsung dikenakan pada apakah koefisien Anda secara unik diidentifikasi dalam data. Dalam kasus yang tidak terlalu parah, masih bisa mengacaukan estimasi koefisien Anda; perubahan kecil dalam data yang digunakan untuk estimasi dapat menyebabkan ayunan liar dalam koefisien yang diestimasi. Ini bisa menjadi masalah dari sudut pandang inferensial: Jika dua variabel sangat berkorelasi, peningkatan satu dapat diimbangi dengan penurunan yang lain sehingga efek gabungan adalah untuk meniadakan satu sama lain. Dengan lebih dari dua variabel, efeknya bisa lebih halus, tetapi jika prediksi stabil, itu sering cukup untuk aplikasi pembelajaran mesin.
Pertimbangkan mengapa kita mengatur dalam konteks regresi: Kita perlu membatasi model agar tidak terlalu fleksibel. Menerapkan jumlah regularisasi yang benar akan sedikit meningkatkan bias untuk pengurangan variasi yang lebih besar. Contoh klasik dari ini adalah menambahkan istilah polinom dan efek interaksi ke regresi: Dalam kasus degenerasi, persamaan prediksi akan menginterpolasi titik data, tetapi mungkin mengerikan ketika mencoba memprediksi nilai dari titik data yang tidak terlihat. Mengecilkan koefisien tersebut kemungkinan akan meminimalkan atau sepenuhnya menghilangkan sebagian dari koefisien tersebut dan meningkatkan generalisasi.
Namun, hutan acak dapat dilihat memiliki parameter regularisasi melalui jumlah variabel sampel di setiap pemisahan: Anda mendapatkan pemisahan yang lebih baik semakin besar mtry
(lebih banyak fitur untuk dipilih; beberapa dari mereka lebih baik daripada yang lain), tetapi itu juga membuat masing-masing pohon lebih tinggi berkorelasi satu sama lain, agak mengurangi efek diversifikasi memperkirakan banyak pohon di tempat pertama. Dilema ini memaksa seseorang untuk menemukan keseimbangan yang tepat, biasanya dicapai dengan menggunakan validasi silang. Yang penting, dan berbeda dengan analisis regresi, tidak ada bagian dari model hutan acak dirugikan oleh variabel yang sangat collinear: bahkan jika dua variabel memberikan kemurnian simpul anak yang sama, Anda dapat memilih satu tanpa mengurangi kualitas hasilnya.
Demikian juga, untuk sesuatu seperti SVM, Anda dapat memasukkan lebih banyak prediktor daripada fitur karena trik kernel memungkinkan Anda beroperasi hanya pada produk bagian dalam vektor fitur tersebut. Memiliki lebih banyak fitur daripada pengamatan akan menjadi masalah dalam regresi, tetapi trik kernel berarti kita hanya memperkirakan koefisien untuk setiap contoh, sedangkan parameter regularisasi mengurangi fleksibilitas solusi - yang jelas merupakan hal yang baik, karena memperkirakan parameter untukCNNpengamatan dengan cara yang tidak terbatas akan selalu menghasilkan model yang sempurna pada data uji - dan kami datang dalam lingkaran penuh, kembali ke skenario regresi jaring elastis / ridge / LASSO di mana kami memiliki fleksibilitas model yang dibatasi sebagai pemeriksaan terhadap model yang terlalu optimis. Tinjauan kondisi KKT dari masalah SVM mengungkapkan bahwa solusi SVM adalah unik, jadi kami tidak perlu khawatir tentang masalah identifikasi yang muncul dalam kasus regresi.
Akhirnya, pertimbangkan dampak multikolinearitas yang sebenarnya . Itu tidak mengubah kekuatan prediksi model (setidaknya, pada data pelatihan) tetapi itu mengacaukan perkiraan koefisien kami. Dalam sebagian besar aplikasi ML, kami tidak peduli dengan koefisien itu sendiri, hanya hilangnya prediksi model kami, jadi dalam hal itu, memeriksa VIF sebenarnya tidak menjawab pertanyaan konsekuensial. (Tetapi jika sedikit perubahan dalam data menyebabkan fluktuasi besar dalam koefisien [gejala klasik multikolinieritas], itu juga dapat mengubah prediksi, dalam hal ini kita peduli - tetapi semua ini [kami harap!] Ditandai ketika kita melakukan cross-validasi, yang merupakan bagian dari proses pemodelan.) Regresi lebih mudah diinterpretasikan, tetapi interpretasi mungkin bukan tujuan yang paling penting untuk beberapa tugas.