Saldo dalam Set Pelatihan
Untuk model regresi logistik, data pelatihan yang tidak seimbang hanya memengaruhi estimasi intersep model (meskipun ini tentu saja mengacaukan semua probabilitas yang diprediksi, yang pada gilirannya membahayakan prediksi Anda). Untungnya koreksi intersep langsung: Asalkan Anda tahu, atau dapat menebak, proporsi sebenarnya dari 0s dan 1s dan tahu proporsi dalam set pelatihan Anda dapat menerapkan koreksi peristiwa langka pada intersep. Detailnya ada di King and Zeng (2001) [ PDF ].
'Koreksi peristiwa langka' ini dirancang untuk desain penelitian kontrol kasus, sebagian besar digunakan dalam epidemiologi, yang memilih kasus dengan memilih jumlah 0 kasus dan 1 kasus yang tetap, dan kemudian perlu mengoreksi bias pemilihan sampel yang dihasilkan. Memang, Anda bisa melatih classifier Anda dengan cara yang sama. Pilih sampel seimbang yang bagus dan kemudian perbaiki intersep untuk memperhitungkan fakta bahwa Anda telah memilih pada variabel dependen untuk mempelajari lebih lanjut tentang kelas yang lebih langka daripada sampel acak yang bisa memberi tahu Anda.
Membuat Prediksi
Pada topik terkait tetapi berbeda: Jangan lupa bahwa Anda harus melakukan thresholding secara cerdas untuk membuat prediksi. Tidak selalu terbaik untuk memprediksi 1 ketika probabilitas model lebih besar 0,5. Ambang lain mungkin lebih baik. Untuk tujuan ini, Anda harus melihat kurva Receiver Operating Characteristic (ROC) dari classifier Anda, bukan hanya keberhasilan prediktifnya dengan ambang probabilitas default.