Dalam pertanyaan yang baru-baru ini diterima dengan baik, Tim bertanya kapan data yang tidak seimbang benar-benar menjadi masalah dalam Pembelajaran Mesin ? Premis dari pertanyaan ini adalah bahwa ada banyak literatur pembelajaran mesin yang membahas keseimbangan kelas dan masalah kelas yang tidak seimbang . Idenya adalah bahwa dataset dengan ketidakseimbangan antara kelas positif dan negatif menyebabkan masalah untuk beberapa klasifikasi pembelajaran mesin (saya termasuk model probabilistik di sini) algoritma, dan metode harus dicari untuk "menyeimbangkan" dataset, mengembalikan 50/50 sempurna terbagi antara kelas positif dan negatif.
Arti umum dari jawaban yang dipilih adalah "tidak, setidaknya jika Anda bijaksana dalam pemodelan". M. Henry L., dalam komentar yang dipilih untuk jawaban yang diterima, menyatakan
[...] tidak ada masalah tingkat rendah dengan menggunakan data yang tidak seimbang. Dalam pengalaman saya, saran untuk "menghindari data yang tidak seimbang" adalah algoritma khusus, atau kebijaksanaan yang diturunkan. Saya setuju dengan AdamO bahwa secara umum, data yang tidak seimbang tidak menimbulkan masalah konseptual untuk model yang ditentukan dengan baik.
AdamO berpendapat bahwa "masalah" dengan keseimbangan kelas benar-benar salah satu kelangkaan kelas
Oleh karena itu, setidaknya dalam regresi (tapi saya curiga dalam semua keadaan), satu-satunya masalah dengan data yang tidak seimbang adalah bahwa Anda secara efektif memiliki ukuran sampel yang kecil. Jika ada metode yang cocok untuk jumlah orang di kelas yang lebih jarang, seharusnya tidak ada masalah jika proporsi keanggotaan mereka tidak seimbang.
Jika ini adalah masalah sebenarnya yang ada, ia meninggalkan pertanyaan terbuka: apa tujuan dari semua metode resampling yang dimaksudkan untuk menyeimbangkan dataset: oversampling, undersampling, SMOTE, dll? Jelas mereka tidak mengatasi masalah secara implisit memiliki ukuran sampel yang kecil, Anda tidak dapat membuat informasi dari ketiadaan!