Terlambat ke pesta, tapi tetap saja inilah jawaban saya, dan itu adalah "Ya", orang harus selalu memperhatikan collinearity, terlepas dari model / metode yang linier atau tidak, atau tugas utama adalah prediksi atau klasifikasi.
Asumsikan sejumlah kovariat / fitur berkorelasi linier hadir dalam kumpulan data dan Random Forest sebagai metode. Jelas, pemilihan acak per node hanya dapat memilih (atau sebagian besar) fitur collinear yang dapat / akan mengakibatkan perpecahan yang buruk, dan ini dapat terjadi berulang kali, sehingga secara negatif mempengaruhi kinerja.
Sekarang, fitur-fitur collinear mungkin kurang informatif tentang hasilnya daripada fitur-fitur lain (non-collinear) dan karena itu mereka harus dipertimbangkan untuk dihilangkan dari set fitur. Namun, anggaplah bahwa fitur berperingkat tinggi dalam daftar 'fitur penting' yang dihasilkan oleh RF. Dengan demikian mereka akan disimpan dalam set data yang tidak perlu meningkatkan dimensi. Jadi, dalam praktiknya, saya akan selalu, sebagai langkah eksplorasi (dari banyak yang terkait) memeriksa hubungan berpasangan fitur, termasuk korelasi linier.