Utas lama, tapi saya tidak setuju dengan pernyataan selimut bahwa collinearity bukan masalah dengan model hutan acak. Ketika dataset memiliki dua (atau lebih) fitur yang berkorelasi, maka dari sudut pandang model, salah satu dari fitur yang berkorelasi ini dapat digunakan sebagai prediktor, tanpa preferensi konkret dari satu di atas yang lain.
Namun begitu salah satu dari mereka digunakan, pentingnya orang lain berkurang secara signifikan karena secara efektif ketidakmurnian yang dapat mereka hapus sudah dihapus oleh fitur pertama.
Akibatnya, mereka akan memiliki kepentingan yang dilaporkan lebih rendah. Ini bukan masalah ketika kita ingin menggunakan pemilihan fitur untuk mengurangi overfitting, karena masuk akal untuk menghapus fitur yang sebagian besar diduplikasi oleh fitur lain, tetapi ketika menafsirkan data , itu dapat mengarah pada kesimpulan yang salah bahwa salah satu variabel adalah prediktor yang kuat sementara yang lain dalam kelompok yang sama tidak penting, sementara sebenarnya mereka sangat dekat dalam hal hubungan mereka dengan variabel respon.
Efek dari fenomena ini agak berkurang berkat pemilihan fitur secara acak pada setiap pembuatan node, tetapi secara umum efeknya tidak dihapus sepenuhnya.
Di atas sebagian besar ditulis dari sini: Memilih fitur yang bagus
multicollinearity
tidak ada efek pada model hutan acak. Sebagai contoh, di sini , jawaban yang paling banyak dipilih mengatakan bahwa "tidak ada bagian dari model hutan acak yang dirugikan oleh variabel yang sangat collinear". Apakah ini memiliki validitas?