Saya sebenarnya menulis implementasi Hutan Acak tapi saya yakin pertanyaannya khusus untuk pohon keputusan (terlepas dari RF).
Jadi konteksnya adalah bahwa saya membuat simpul di pohon keputusan dan kedua variabel prediksi dan target kontinu. Node memiliki ambang batas untuk membagi data menjadi dua set, dan saya membuat prediksi baru untuk setiap subset berdasarkan nilai target rata-rata di setiap set. Apakah ini pendekatan yang benar?
Alasan saya bertanya adalah bahwa ketika memprediksi variabel biner saya percaya pendekatan khas (benar?) Adalah untuk membagi data menjadi 0 dan 1 subset tanpa mengambil rata-rata atas baris data di setiap subset. Pemisahan berikutnya akan dibagi menjadi himpunan bagian berbutir halus dan mengambil rata-rata pada setiap hasil split pemisahan berikutnya (menurunkan pohon keputusan) beroperasi pada apa yang sekarang variabel kontinu daripada variabel biner (karena kita beroperasi pada nilai kesalahan residual daripada yang asli target).
Pertanyaan sampingan: Apakah perbedaan antara dua pendekatan (biner vs berkelanjutan) signifikan - atau akankah mereka benar-benar memberikan hasil yang identik untuk pohon keputusan yang lengkap?