Saya telah menemukan He dan Garcia (2009) sebagai ulasan yang bermanfaat untuk belajar dalam masalah kelas yang tidak seimbang. Berikut adalah beberapa hal yang pasti tidak komprehensif untuk dipertimbangkan:
Pendekatan berbasis data:
Seseorang dapat menggarisbawahi kelas mayoritas atau terlalu banyak kelas minoritas. (Breiman menunjukkan bahwa ini secara formal setara dengan menetapkan biaya kesalahan klasifikasi yang tidak seragam.) Ini dapat menyebabkan masalah: Undersampling dapat menyebabkan pelajar kehilangan aspek-aspek dari kelas mayoritas; oversampling meningkatkan risiko overfitting.
Ada metode "undersampling informasi" yang mengurangi masalah ini. Salah satunya adalah EasyEnsemble , yang secara mandiri mengambil sampel beberapa himpunan bagian dari kelas mayoritas dan membuat beberapa pengklasifikasi dengan menggabungkan setiap subset dengan semua data kelas minoritas.
SMOTE (Sintetis Minority Oversampling Technique) atau SMOTEBoost, (menggabungkan SMOTE dengan boosting) membuat instance sintetis dari kelas minoritas dengan membuat tetangga terdekat di ruang fitur. SMOTE diimplementasikan dalam R dalam paket DMwR (yang menyertai buku Luis Torgo "Penambangan Data dengan R, pembelajaran dengan studi kasus" CRC Press 2016 ).
Pendekatan model fitting
Terapkan bobot kelas-spesifik dalam fungsi kerugian Anda (bobot lebih besar untuk kasus minoritas).
Untuk pendekatan berbasis pohon, Anda dapat menggunakan jarak Hellinger sebagai fungsi pengotor simpul, seperti yang disarankan dalam Cieslak et al. "Pohon keputusan jarak Hellinger kuat dan tidak peka" ( kode Weka di sini .)
Gunakan classifier satu kelas , belajar baik (tergantung pada model) kepadatan probabilitas atau batas untuk satu kelas dan memperlakukan kelas lain sebagai outlier.
Tentu saja, jangan gunakan akurasi sebagai metrik untuk pembuatan model. Kappa Cohen adalah alternatif yang masuk akal.
Pendekatan evaluasi model
Jika model Anda mengembalikan probabilitas yang diprediksi atau skor lainnya, pilih cutoff keputusan yang membuat tradeoff dalam kesalahan (menggunakan dataset yang independen dari pelatihan dan pengujian). Dalam R, paket OptimalCutpoints mengimplementasikan sejumlah algoritma, termasuk yang sensitif biaya, untuk memutuskan cutoff.