Saya pikir dalam makalah asli mereka menyarankan menggunakan ), tetapi bagaimanapun idenya adalah sebagai berikut:catatan2( N+ 1
Jumlah fitur yang dipilih secara acak dapat mempengaruhi kesalahan generalisasi dalam dua cara: memilih banyak fitur meningkatkan kekuatan masing-masing pohon sementara mengurangi jumlah fitur menyebabkan korelasi yang lebih rendah di antara pohon-pohon meningkatkan kekuatan hutan secara keseluruhan.
Yang menarik adalah bahwa penulis Random Forests (pdf) menemukan perbedaan empiris antara klasifikasi dan regresi:
Perbedaan yang menarik antara regresi dan klasifikasi adalah bahwa korelasinya meningkat cukup lambat karena jumlah fitur yang digunakan meningkat.
N/ 3N--√
N--√catatanN
Kisaran di antara biasanya besar. Dalam kisaran ini, ketika jumlah fitur naik, korelasinya meningkat, tetapi PE * (pohon) mengimbangi dengan menurun.
(PE * menjadi kesalahan generalisasi)
Seperti yang mereka katakan dalam Elemen Pembelajaran Statistik:
Dalam praktiknya, nilai terbaik untuk parameter ini akan bergantung pada masalah, dan mereka harus diperlakukan sebagai parameter penyetelan.
Satu hal yang menjadi sandaran masalah Anda adalah jumlah variabel kategorikal. Jika Anda memiliki banyak variabel kategori yang dikodekan sebagai variabel-dummy, biasanya masuk akal untuk meningkatkan parameter. Sekali lagi, dari kertas Random Forests:
i n t ( l o g2M.+ 1 )