Ini adalah masalah yang menarik dan sangat sering terjadi dalam klasifikasi - tidak hanya di pohon keputusan tetapi di hampir semua algoritma klasifikasi.
Seperti yang Anda temukan secara empiris, satu set pelatihan yang terdiri dari jumlah perwakilan yang berbeda dari kedua kelas dapat menghasilkan classifier yang bias terhadap kelas mayoritas. Ketika diterapkan pada set tes yang juga tidak seimbang, pengklasifikasi ini menghasilkan estimasi akurasi optimis. Dalam kasus ekstrim, pengklasifikasi dapat menetapkan setiap kasus uji tunggal untuk kelas mayoritas, sehingga mencapai akurasi yang sama dengan proporsi kasus uji milik kelas mayoritas. Ini adalah fenomena yang terkenal dalam klasifikasi biner (dan meluas secara alami ke pengaturan multi-kelas).
Ini adalah masalah penting, karena dataset yang tidak seimbang dapat menyebabkan perkiraan kinerja yang meningkat. Ini pada gilirannya dapat mengarah pada kesimpulan yang salah tentang signifikansi yang dilakukan algoritma lebih baik daripada kebetulan.
Literatur pembelajaran mesin pada topik ini pada dasarnya telah mengembangkan tiga strategi solusi.
Anda dapat mengembalikan keseimbangan pada set latihan dengan undersampling kelas besar atau dengan oversampling kelas kecil, untuk mencegah bias muncul di tempat pertama.
Sebagai alternatif, Anda dapat memodifikasi biaya kesalahan klasifikasi, seperti dicatat dalam respons sebelumnya, sekali lagi untuk mencegah bias.
Perlindungan tambahan adalah untuk mengganti keakuratan dengan ketepatan yang disebut seimbang . Ini didefinisikan sebagai rata-rata aritmatika dari akurasi khusus kelas, mana dan mewakili akurasi yang diperoleh pada contoh positif dan negatif, masing-masing. Jika classifier berkinerja sama baiknya di kedua kelas, istilah ini mengurangi ke akurasi konvensional (yaitu, jumlah prediksi yang benar dibagi dengan jumlah total prediksi). Sebaliknya, jika akurasi konvensional di atas kebetulan hanya karena penggolong mengambil keuntungan dari set tes yang tidak seimbang, maka keakuratan yang seimbang, jika sesuai, akan jatuh ke peluang (lihat sketsa di bawah).π+π-ϕ:=12(π++π−),π+π−
Saya akan merekomendasikan untuk mempertimbangkan setidaknya dua pendekatan di atas bersamaan. Sebagai contoh, Anda dapat melakukan oversample kelas minoritas Anda untuk mencegah classifier Anda dari mendapatkan bias mendukung kelas mayoritas. Setelah ini, ketika mengevaluasi kinerja classifier Anda, Anda dapat mengganti keakuratan dengan keakuratan yang seimbang. Kedua pendekatan tersebut saling melengkapi. Ketika diterapkan bersama-sama, mereka akan membantu Anda berdua mencegah masalah asli Anda dan menghindari kesimpulan salah yang mengikutinya.
Saya akan dengan senang hati mengirimkan beberapa referensi tambahan ke literatur jika Anda ingin menindaklanjuti hal ini.