Saya tidak tahu persis apa yang Anda lakukan, jadi kode sumber Anda akan membantu saya untuk menebak lebih sedikit.
Banyak hutan acak pada dasarnya adalah jendela tempat rata-rata diasumsikan mewakili sistem. Ini adalah pohon CAR yang terlalu dimuliakan.
Katakanlah Anda memiliki pohon CAR dua daun. Data Anda akan dibagi menjadi dua tumpukan. Output (konstan) dari setiap tumpukan akan menjadi rata-rata.
Sekarang mari kita lakukan 1000 kali dengan himpunan bagian data acak. Anda masih akan memiliki daerah terputus-putus dengan output yang rata-rata. Pemenang dalam RF adalah hasil yang paling sering. Itu hanya "membingungkan" perbatasan antara kategori.
Contoh output linear sedikit demi sedikit dari pohon CART:
Katakanlah, misalnya, bahwa fungsi kita adalah y = 0,5 * x + 2. Plot yang terlihat seperti berikut:
Jika kita memodelkan ini menggunakan pohon klasifikasi tunggal dengan hanya dua daun maka kita pertama-tama akan menemukan titik split terbaik, membagi pada titik itu, dan kemudian memperkirakan fungsi output di setiap daun sebagai output rata-rata di atas daun.
Jika kita melakukan ini lagi dengan lebih banyak daun di pohon CART maka kita mungkin mendapatkan yang berikut:
Mengapa CAR-hutan?
Anda dapat melihat bahwa, dalam batas daun tanpa batas, pohon CART akan menjadi pendekatan yang dapat diterima.
Masalahnya adalah dunia nyata itu berisik. Kami suka berpikir dalam cara, tetapi dunia menyukai kecenderungan sentral (mean) dan kecenderungan variasi (std dev). Ada suara berisik.
Hal yang sama yang memberi CAR-tree kekuatan besar, kemampuannya menangani diskontinuitas, membuatnya rentan terhadap pemodelan noise seolah-olah itu adalah sinyal.
Jadi Leo Breimann membuat proposisi sederhana namun kuat: gunakan metode Ensemble untuk membuat pohon Klasifikasi dan Regresi kuat. Dia mengambil himpunan bagian acak (sepupu resampling bootstrap) dan menggunakannya untuk melatih hutan pohon CAR. Ketika Anda mengajukan pertanyaan tentang hutan, seluruh hutan berbicara, dan jawaban paling umum diambil sebagai hasilnya. Jika Anda berurusan dengan data numerik, akan berguna untuk melihat ekspektasi sebagai output.
Jadi untuk plot kedua, pikirkan tentang pemodelan menggunakan hutan acak. Setiap pohon akan memiliki subset data acak. Itu berarti bahwa lokasi titik perpecahan "terbaik" akan bervariasi dari pohon ke pohon. Jika Anda membuat plot output dari hutan acak, saat Anda mendekati diskontinuitas, beberapa cabang pertama akan menunjukkan lompatan, lalu banyak. Nilai rata-rata di wilayah itu akan melintasi jalur sigmoid yang mulus. Bootstrapping berbelit-belit dengan Gaussian, dan Gaussian blur pada fungsi step itu menjadi sigmoid.
Garis bawah:
Anda membutuhkan banyak cabang per pohon untuk mendapatkan perkiraan yang baik untuk fungsi yang sangat linier.
Ada banyak "tombol" yang dapat Anda ubah untuk mempengaruhi jawaban, dan Anda tidak mungkin mengatur semuanya ke nilai yang benar.
Referensi: