Saya memiliki dataset biner yang sangat bias - Saya memiliki 1000x lebih banyak contoh kelas negatif daripada kelas positif. Saya ingin melatih Ensemble Pohon (seperti Pohon Acak Ekstra atau Hutan Acak) pada data ini, tetapi sulit untuk membuat kumpulan data pelatihan yang berisi cukup contoh kelas positif.
Apa implikasi dari melakukan pendekatan pengambilan sampel bertingkat untuk menormalkan jumlah contoh positif dan negatif? Dengan kata lain, apakah itu ide yang buruk untuk, misalnya, mengembang secara artifisial (dengan resampling) jumlah contoh kelas positif dalam set pelatihan?