Saya memiliki masalah klasifikasi dengan sekitar 1000 sampel positif dan 10.000 negatif dalam set pelatihan. Jadi kumpulan data ini cukup tidak seimbang. Hutan acak sederhana hanya mencoba menandai semua sampel uji sebagai kelas mayoritas.
Beberapa jawaban yang baik tentang sub-sampling dan hutan acak berbobot diberikan di sini: Apa implikasi untuk melatih suatu Ensemble Pohon dengan dataset yang sangat bias?
Metode klasifikasi apa selain RF yang dapat menangani masalah dengan cara terbaik?