Saya telah banyak berpikir tentang "masalah ketidakseimbangan kelas" dalam pembelajaran mesin / statistik akhir-akhir ini, dan saya semakin dalam merasakan bahwa saya tidak mengerti apa yang sedang terjadi.
Pertama, biarkan saya mendefinisikan (atau mencoba) mendefinisikan istilah saya:
Masalah ketidakseimbangan kelas dalam pembelajaran mesin / statistik adalah pengamatan bahwa beberapa algoritma klasifikasi biner (*) tidak berkinerja baik ketika proporsi 0 kelas ke 1 kelas sangat condong.
Jadi, di atas, misalnya, jika ada seratus kelas untuk setiap kelas tunggal , saya akan mengatakan ketidakseimbangan kelas adalah hingga , atau .
Sebagian besar pernyataan masalah yang saya lihat tidak memiliki apa yang saya anggap sebagai kualifikasi yang memadai (model apa yang berjuang, seberapa tidak seimbangnya masalah), dan ini adalah salah satu sumber kebingungan saya.
Sebuah survei dari teks standar dalam pembelajaran mesin / statistik ternyata sedikit:
- Elemen Miring Statistik dan Pengantar Pembelajaran Statistik tidak mengandung "ketidakseimbangan kelas" dalam indeks.
Pembelajaran Mesin untuk Analisis Data Prediktif juga tidak mengandung "ketidakseimbangan kelas" dalam indeks.
Pembelajaran Mesin Murphy : Perspektif Probabilistik memang mengandung "ketidakseimbangan kelas * dalam indeks. Referensi adalah bagian tentang SVM, di mana saya menemukan komentar menggoda berikut:
Perlu diingat bahwa semua kesulitan ini, dan kebanyakan heuristik yang telah diusulkan untuk memperbaikinya, secara fundamental muncul karena SVM tidak memodelkan ketidakpastian menggunakan probabilitas, sehingga skor output mereka tidak dapat dibandingkan di semua kelas.
Komentar ini sesuai dengan intuisi dan pengalaman saya: pada pekerjaan saya sebelumnya, kami secara rutin akan menyesuaikan regresi logistik dan gradien meningkatkan model pohon (untuk meminimalkan kemungkinan log binomial) untuk data yang tidak seimbang (berdasarkan urutan ketidakseimbangan kelas ), dengan tidak ada masalah yang jelas dalam kinerja.
Saya telah membaca (di suatu tempat) bahwa model klasifikasi pohon (pohon sendiri dan hutan acak) juga menderita masalah ketidakseimbangan kelas. Ini sedikit memperkeruh air, pepohonan, dalam beberapa hal, mengembalikan probabilitas: catatan pemungutan suara untuk kelas target di setiap simpul terminal pohon.
Jadi, untuk menyelesaikannya, apa yang saya benar-benar kejar adalah pemahaman konseptual tentang kekuatan yang menyebabkan masalah ketidakseimbangan kelas (jika ada).
- Apakah itu sesuatu yang kita lakukan untuk diri kita sendiri dengan algoritma yang dipilih dengan buruk dan ambang batas klasifikasi standar yang malas?
- Apakah itu hilang jika kita selalu cocok dengan model probabilitas yang mengoptimalkan kriteria penilaian yang tepat? Dikatakan berbeda, apakah penyebabnya hanyalah pilihan yang buruk dari fungsi kerugian, yaitu mengevaluasi kekuatan prediksi model berdasarkan aturan klasifikasi keras dan akurasi keseluruhan?
- Jika demikian, apakah model yang tidak mengoptimalkan aturan pemberian skor yang tepat kemudian tidak berguna (atau setidaknya kurang bermanfaat)?
(*) Menurut klasifikasi saya maksudkan setiap model statistik cocok dengan data respons biner. Saya tidak berasumsi bahwa tujuan saya adalah tugas yang sulit untuk satu kelas atau yang lain, meskipun mungkin.
poor choice of loss function
daftar saya. Jadi, apakah Anda pikir ini benar bahkan untuk aturan penilaian yang tepat sebagai fungsi kerugian?