Saya pikir subsampling (downsampling) adalah metode yang populer untuk mengontrol ketidakseimbangan kelas di tingkat dasar, yang berarti itu memperbaiki akar masalah. Jadi untuk semua contoh Anda, memilih 1.000 dari mayoritas kelas secara acak setiap waktu akan berhasil. Anda bahkan bisa bermain-main dengan membuat 10 model (10 lipatan 1.000 mayoritas vs. 1.000 minoritas) sehingga Anda akan menggunakan seluruh rangkaian data Anda. Anda dapat menggunakan metode ini, tetapi sekali lagi Anda agak membuang 9.000 sampel kecuali Anda mencoba beberapa metode ensemble. Perbaikan mudah, tetapi sulit untuk mendapatkan model yang optimal berdasarkan data Anda.
Sejauh mana Anda perlu mengontrol ketidakseimbangan kelas sebagian besar didasarkan pada tujuan Anda. Jika Anda peduli tentang klasifikasi murni, maka ketidakseimbangan akan mempengaruhi 50% probabilitas terputus untuk sebagian besar teknik, jadi saya akan mempertimbangkan downsampling. Jika Anda hanya peduli dengan urutan klasifikasi (ingin positif umumnya lebih tinggi daripada negatif) dan menggunakan ukuran seperti AUC, ketidakseimbangan kelas hanya akan bias probabilitas Anda, tetapi urutan relatif harus cukup stabil untuk sebagian besar teknik.
Regresi logistik bagus untuk ketidakseimbangan kelas karena selama Anda memiliki> 500 dari kelas minoritas, perkiraan parameter akan cukup akurat dan satu-satunya dampak akan ada pada intersep, yang dapat dikoreksi jika itu adalah sesuatu yang Anda mungkin ingin. Regresi logistik memodelkan probabilitas daripada hanya kelas, sehingga Anda dapat melakukan lebih banyak penyesuaian manual sesuai dengan kebutuhan Anda.
Banyak teknik klasifikasi juga memiliki argumen bobot kelas yang akan membantu Anda lebih fokus pada kelas minoritas. Ini akan menghukum klasifikasi keliru dari kelas minoritas yang benar, sehingga keseluruhan akreditasi Anda akan sedikit menderita tetapi Anda akan mulai melihat lebih banyak kelas minoritas yang diklasifikasikan dengan benar.