Jika saya mengerti dengan benar, Anda memiliki masalah klasifikasi dua kelas, di mana kelas positif (cocok) jarang terjadi. Banyak pengklasifikasi berjuang dengan ketidakseimbangan kelas seperti itu, dan merupakan praktik umum untuk mengambil sampel kelas mayoritas untuk mendapatkan kinerja yang lebih baik, jadi jawaban untuk pertanyaan pertama adalah "ya". Namun, jika Anda melakukan sub-sampel terlalu banyak, Anda akan berakhir dengan pengklasifikasi yang terlalu memprediksikan kelas positif minoritas, jadi hal terbaik yang harus dilakukan adalah memilih ransum sub-sampling untuk memaksimalkan kinerja, mungkin dengan meminimalkan persilangan. kesalahan validasi ketika data uji belum disampel jadi Anda mendapatkan indikasi kinerja operasional yang baik.
Jika Anda memiliki pengklasifikasi probabilistik, yang memberikan perkiraan kemungkinan keanggotaan kelas, Anda dapat memilih yang lebih baik dan mengolah output untuk mengkompensasi perbedaan antara frekuensi kelas dalam set pelatihan dan dalam operasi. Saya menduga bahwa untuk beberapa pengklasifikasi, pendekatan optimal adalah untuk mengoptimalkan rasio sub-sampling dan koreksi terhadap output dengan mengoptimalkan kesalahan validasi silang.
Daripada sub-sampling, untuk beberapa pengklasifikasi (misalnya SVM) Anda dapat memberikan bobot yang berbeda untuk pola positif dan negatif. Saya lebih suka ini daripada sub-sampling karena itu berarti tidak ada variabilitas dalam hasil karena sub-sampel tertentu yang digunakan. Jika hal ini tidak memungkinkan, gunakan bootstrap untuk membuat classifier kantong, di mana sub-sampel yang berbeda dari kelas mayoritas digunakan di setiap iterasi.
Satu hal lain yang akan saya katakan adalah bahwa umumnya di mana terdapat ketidakseimbangan kelas yang besar, kesalahan negatif palsu dan kesalahan positif palsu tidak sama buruknya, dan merupakan ide yang baik untuk membangun ini ke dalam desain classifier (yang dapat diselesaikan oleh sub -sampling atau pola pembobotan milik masing-masing kelas).