Alasan intuitif telah dijelaskan di blogpost:
Jika sasaran kami adalah Prediksi, ini akan menyebabkan bias yang pasti. Dan lebih buruk lagi, ini akan menjadi bias permanen, dalam arti bahwa kita tidak akan memiliki perkiraan yang konsisten ketika ukuran sampel bertambah.
Jadi, bisa dibilang masalah data seimbang (buatan) lebih buruk daripada kasus tidak seimbang.
Data yang seimbang baik untuk klasifikasi, tetapi Anda jelas kehilangan informasi tentang frekuensi penampilan, yang akan memengaruhi metrik akurasi sendiri, serta kinerja produksi.
Katakanlah Anda mengenali huruf tulisan tangan dari alfabet bahasa Inggris (26 huruf). Overbalancing setiap penampilan huruf akan memberikan setiap huruf kemungkinan diklasifikasikan (dengan benar atau tidak) kira-kira 1/26, sehingga classifier akan melupakan distribusi huruf yang sebenarnya dalam sampel asli. Dan tidak masalah ketika classifier dapat menggeneralisasi dan mengenali setiap huruf dengan akurasi tinggi .
Tetapi jika akurasi dan yang paling penting generalisasi tidak "terlalu tinggi" (saya tidak bisa memberikan definisi - Anda dapat menganggapnya hanya sebagai "kasus terburuk") - poin yang salah klasifikasi kemungkinan besar akan didistribusikan secara merata di antara semua huruf , sesuatu seperti:
"A" was misclassified 10 times
"B" was misclassified 10 times
"C" was misclassified 11 times
"D" was misclassified 10 times
...and so on
Berbeda dengan tanpa menyeimbangkan (dengan asumsi bahwa "A" dan "C" memiliki probabilitas penampilan yang jauh lebih tinggi dalam teks)
"A" was misclassified 3 times
"B" was misclassified 14 times
"C" was misclassified 3 times
"D" was misclassified 14 times
...and so on
Jadi sering kasus akan mendapatkan kesalahan klasifikasi yang lebih sedikit. Apakah itu baik atau tidak tergantung pada tugas Anda. Untuk pengenalan teks alami, orang dapat berargumen bahwa huruf dengan frekuensi yang lebih tinggi lebih layak, karena mereka akan mempertahankan semantik teks asli, membawa tugas pengenalan lebih dekat ke prediksi (di mana semantik mewakili kecenderungan ). Tetapi jika Anda mencoba mengenali sesuatu seperti tangkapan layar kunci ECDSA (lebih entropi -> kurang prediksi) - menjaga data tidak seimbang tidak akan membantu. Jadi, sekali lagi, itu tergantung.
Perbedaan yang paling penting adalah bahwa estimasi keakuratannya sendiri menjadi bias (seperti yang Anda lihat dalam contoh alfabet seimbang), jadi Anda tidak tahu bagaimana perilaku model dipengaruhi oleh poin paling langka atau paling sering.
PS Anda selalu dapat melacak kinerja klasifikasi tidak seimbang dengan metrik Precision / Recall terlebih dahulu dan memutuskan apakah Anda perlu menambahkan balancing atau tidak.
EDIT : Ada kebingungan tambahan yang terletak pada teori estimasi tepatnya pada perbedaan antara rata - rata sampel dan rata -rata populasi. Misalnya, Anda mungkin tahu (boleh dibilang) distribusi huruf bahasa Inggris yang sebenarnya dalam alfabet , tetapi sampel Anda (set pelatihan) tidak cukup besar untuk memperkirakannya dengan benar (dengan ). Jadi untuk mengkompensasi , kadang-kadang direkomendasikan untuk menyeimbangkan kembali kelas berdasarkan populasi itu sendiri atau parameter yang diketahui dari sampel yang lebih besarp(xi|θ)p(xi|θ^)θ^i−θi(estimator jadi lebih baik). Namun, dalam praktiknya tidak ada jaminan bahwa "sampel yang lebih besar" didistribusikan secara identik karena risiko mendapatkan data yang bias pada setiap langkah (katakanlah huruf bahasa Inggris yang dikumpulkan dari literatur teknis vs fiksi vs seluruh perpustakaan) sehingga menyeimbangkan masih bisa berbahaya.
Jawaban ini juga harus menjelaskan kriteria penerapan untuk menyeimbangkan:
Masalah ketidakseimbangan kelas disebabkan oleh tidak adanya pola yang cukup dimiliki oleh kelas minoritas, bukan oleh rasio pola positif dan negatif itu sendiri. Umumnya jika Anda memiliki cukup data, "masalah ketidakseimbangan kelas" tidak muncul
Sebagai kesimpulan, balancing artifisial jarang berguna jika set pelatihan cukup besar. Tidak adanya data statistik dari sampel yang lebih besar yang terdistribusi secara identik juga menunjukkan tidak perlu penyeimbangan buatan (terutama untuk prediksi), jika tidak kualitas penaksir sama baiknya dengan "probabilitas untuk bertemu dinosaurus":
Berapa probabilitas untuk bertemu dinosaurus di jalan?
1/2 Anda bertemu dengan dinosaurus atau Anda tidak bertemu dinosaurus