Pertanyaan Saya: Mengapa hutan acak mempertimbangkan himpunan bagian acak dari fitur untuk pemisahan pada tingkat simpul dalam setiap pohon daripada di tingkat pohon ?
Latar Belakang: Ini adalah pertanyaan sejarah. Tin Kam Ho menerbitkan makalah ini tentang membangun "hutan keputusan" dengan secara acak memilih subset fitur yang akan digunakan untuk menumbuhkan setiap pohon pada tahun 1998. Beberapa tahun kemudian, pada tahun 2001, Leo Breiman menerbitkan makalah Random Forest , di mana subset fitur secara acak dipilih pada setiap node dalam setiap pohon, bukan pada setiap pohon. Sementara Breiman mengutip Ho, dia tidak secara khusus menjelaskan perpindahan dari pemilihan fitur tingkat pohon ke tingkat simpul.
Saya bertanya-tanya apa yang secara spesifik memotivasi perkembangan ini. Tampaknya memilih subset fitur di tingkat pohon masih akan menyelesaikan dekorasi pohon yang diinginkan.
Teori saya: Saya belum melihat ini diartikulasikan di tempat lain, tetapi sepertinya metode ruang bagian acak akan kurang efisien dalam hal mendapatkan perkiraan pentingnya fitur. Untuk mendapatkan estimasi variabel penting, untuk setiap pohon, fitur diijinkan secara acak satu per satu, dan peningkatan kesalahan klasifikasi atau peningkatan kesalahan untuk pengamatan out-of-bag dicatat. Variabel dimana kesalahan klasifikasi atau peningkatan kesalahan yang dihasilkan dari permutasi acak ini tinggi adalah variabel dengan kepentingan terbesar.
Jika kita menggunakan metode ruang bagian acak, untuk setiap pohon, kami hanya mempertimbangkan dari fitur . Mungkin perlu beberapa pohon untuk mempertimbangkan semua prediktor bahkan sekali. Di sisi lain, jika kita mempertimbangkan subset yang berbeda dari fitur di setiap node , kami akan mempertimbangkan setiap fitur lebih kali setelah pohon lebih sedikit, memberikan kita perkiraan yang lebih kuat dari pentingnya fitur.p p m saya p
Apa yang saya lihat sejauh ini: Sejauh ini, saya telah membaca kertas Breiman dan kertas Ho, dan melakukan pencarian online yang luas untuk perbandingan metode tanpa menemukan jawaban yang pasti. Perhatikan bahwa pertanyaan serupa pernah diajukan sebelumnya. Pertanyaan ini sedikit lebih jauh dengan memasukkan spekulasi saya / kerja ke arah solusi yang mungkin. Saya akan tertarik pada jawaban, kutipan yang relevan, atau studi simulasi yang membandingkan kedua pendekatan. Jika tidak ada yang datang, saya berencana untuk menjalankan simulasi saya sendiri membandingkan kedua metode.