Saya pikir ini adalah pertanyaan langsung, meskipun alasan di balik mengapa atau mengapa tidak. Alasan saya bertanya adalah bahwa saya baru-baru ini menulis implementasi RF saya sendiri dan meskipun berkinerja baik, kinerjanya tidak sebaik yang saya harapkan (berdasarkan set data kompetisi Prediksi Kualitas Foto Kaggle , skor kemenangan dan beberapa info selanjutnya yang tersedia tentang teknik apa yang digunakan).
Hal pertama yang saya lakukan dalam keadaan seperti itu adalah kesalahan prediksi plot untuk model saya, jadi untuk setiap nilai prediksi yang diberikan, saya menentukan bias rata-rata (atau penyimpangan) dari nilai target yang benar. Untuk RF saya, saya mendapatkan plot ini:
Saya bertanya-tanya apakah ini adalah pola bias yang umum diamati untuk RF (jika tidak maka mungkin bisa menjadi sesuatu yang spesifik untuk kumpulan data dan / atau implementasi saya). Tentu saja saya dapat menggunakan plot ini untuk meningkatkan prediksi dengan menggunakannya untuk mengkompensasi bias, tapi saya bertanya-tanya apakah ada kesalahan yang lebih mendasar atau kekurangan dalam model RF itu sendiri yang perlu ditangani. Terima kasih.
== ADDENDUM ==
Investigasi awal saya ada di entri blog ini Random Forest Bias - Update