Saya memiliki tugas klasifikasi di mana saya memiliki sejumlah prediktor (salah satunya adalah yang paling informatif), dan saya menggunakan model MARS untuk membangun classifier saya (saya tertarik pada model sederhana apa pun, dan menggunakan glms untuk tujuan ilustrasi akan menjadi baik baik juga). Sekarang saya memiliki ketidakseimbangan kelas yang sangat besar dalam data pelatihan (sekitar 2.700 sampel negatif untuk setiap sampel positif). Mirip dengan tugas Pengambilan Informasi, saya lebih peduli tentang memprediksi sampel tes positif peringkat teratas. Untuk alasan ini, kinerja pada kurva Recall Precision penting bagi saya.
Pertama-tama, saya hanya melatih model pada data pelatihan saya menjaga ketidakseimbangan kelas seperti apa adanya. Saya memvisualisasikan model saya yang terlatih dalam warna merah, dan input yang paling penting dalam warna biru.
Pelatihan data tidak seimbang, evaluasi data tidak seimbang :
Berpikir bahwa ketidakseimbangan kelas adalah membuang model, karena mempelajari sampel positif peringkat atas adalah bagian sangat kecil dari seluruh kumpulan data, saya meningkatkan poin pelatihan positif untuk mendapatkan kumpulan data pelatihan yang seimbang. Ketika saya memplot kinerja pada set pelatihan yang seimbang , saya mendapatkan kinerja yang baik. Baik dalam kurva PR dan ROC, model yang saya latih tidak lebih baik daripada input.
Pelatihan data seimbang (upampled), evaluasi juga data berimbang (upsampled):
Namun, jika saya menggunakan model ini yang dilatih tentang data seimbang, untuk memprediksi set pelatihan yang asli dan tidak seimbang, saya masih mendapatkan kinerja yang buruk pada kurva PR.
Pelatihan data seimbang (upampled), evaluasi data tidak seimbang asli:
Jadi pertanyaan saya adalah:
- Apakah alasan visualisasi kurva PR menunjukkan kinerja yang lebih rendah dari model saya yang terlatih (merah), sedangkan kurva ROC menunjukkan peningkatan karena ketidakseimbangan kelas?
- Dapatkah pendekatan resampling / up-sampling / down-sampling menyelesaikan ini untuk memaksa pelatihan untuk fokus pada daerah dengan presisi tinggi / rendah daya ingat?
- Apakah ada cara lain untuk memfokuskan pelatihan pada daerah dengan presisi tinggi / daya ingat rendah?