Apakah hutan acak memerlukan variabel input untuk diskalakan atau dipusatkan?


16

Variabel input saya memiliki dimensi yang berbeda. Beberapa variabel adalah desimal sementara beberapa lainnya ratusan. Apakah penting untuk memusatkan (mengurangi rata-rata) atau skala (dibagi dengan standar deviasi) variabel-variabel input ini untuk membuat data tidak berdimensi saat menggunakan hutan acak?

Jawaban:


29

Tidak.

Hutan Acak didasarkan pada algoritma partisi pohon.

Dengan demikian, tidak ada analog dengan koefisien yang diperoleh dalam strategi regresi umum, yang akan tergantung pada unit variabel independen. Sebagai gantinya, seseorang mendapatkan kumpulan aturan partisi, pada dasarnya keputusan yang diberi ambang, dan ini tidak boleh berubah dengan penskalaan. Dengan kata lain, pohon hanya melihat peringkat dalam fitur.

Pada dasarnya, setiap transformasi monoton data Anda tidak boleh mengubah hutan sama sekali (dalam implementasi yang paling umum).

Juga, pohon keputusan biasanya kuat untuk ketidakstabilan numerik yang kadang-kadang merusak konvergensi dan presisi dalam algoritma lain.


0

Secara keseluruhan saya setuju dengan Firebug, tetapi mungkin ada beberapa nilai dalam menstandarisasi variabel Anda jika Anda tertarik dengan nilai penting prediktor. RF akan cenderung menyukai prediktor kontinu yang sangat bervariasi karena ada lebih banyak peluang untuk mem-partisi data. Namun, cara yang lebih baik untuk mengatasi masalah ini adalah dengan menggunakan pendekatan tertentu (yaitu pengambilan sampel tanpa penggantian menggunakan hutan kondisional) yang lebih kuat untuk bias ini. Lihat https://bmcbioinformatics.biomedcentral.com/articles/10.1186/1471-2105-8-25


1
Selamat datang di situs ini. Kami mencoba membangun repositori permanen untuk informasi statistik berkualitas tinggi dalam bentuk pertanyaan & jawaban. Karena itu, kami waspada terhadap jawaban tautan saja, karena tautannya. Bisakah Anda memposting kutipan lengkap & ringkasan informasi di tautan, kalau-kalau mati?
gung - Reinstate Monica
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.