Kami sudah memiliki beberapa pertanyaan tentang data yang tidak seimbang ketika menggunakan regresi logistik , SVM , pohon keputusan , mengantongi dan sejumlah pertanyaan serupa lainnya, yang menjadikannya topik yang sangat populer! Sayangnya, masing-masing pertanyaan tampaknya khusus untuk algoritma dan saya tidak menemukan pedoman umum untuk menangani data yang tidak seimbang.
Mengutip salah satu jawaban oleh Marc Claesen , berurusan dengan data yang tidak seimbang
(...) sangat tergantung pada metode pembelajaran. Sebagian besar pendekatan tujuan umum memiliki satu (atau beberapa) cara untuk menghadapinya.
Tetapi kapan tepatnya kita harus khawatir tentang data yang tidak seimbang? Algoritma mana yang paling banyak dipengaruhi olehnya dan mana yang bisa menghadapinya? Algoritma mana yang membutuhkan kita untuk menyeimbangkan data? Saya sadar bahwa mendiskusikan setiap algoritme tidak mungkin dilakukan di situs tanya jawab seperti ini, saya lebih suka mencari pedoman umum tentang kapan bisa menjadi masalah.