Terlepas dari pendekatan variabilitas data yang mirip dan terus meningkat, dapatkah hutan acak "sebagai algoritma" dianggap sebagai opsi yang baik untuk klasifikasi data yang tidak seimbang?
Terlepas dari pendekatan variabilitas data yang mirip dan terus meningkat, dapatkah hutan acak "sebagai algoritma" dianggap sebagai opsi yang baik untuk klasifikasi data yang tidak seimbang?
Jawaban:
Itu bukan pilihan yang baik.
Hutan acak dibangun di atas pohon keputusan, dan pohon keputusan sensitif terhadap ketidakseimbangan kelas . Setiap pohon dibangun di atas kantung, dan setiap kantung adalah sampel acak seragam dari data (dengan penggantian). Oleh karena itu setiap pohon akan bias dalam arah dan besaran yang sama (rata-rata) berdasarkan ketidakseimbangan kelas.
Ada beberapa teknik untuk mengurangi atau mengurangi ketidakseimbangan kelas, beberapa di antaranya bersifat umum dan beberapa di antaranya khusus untuk hutan acak. Topik itu telah dibahas secara luas di sini dan di tempat lain.
sunting: Saya akan menambahkan bahwa saya tidak berpikir itu secara dramatis lebih buruk daripada opsi lain, misalnya regresi logistik, meskipun saya tidak punya bukti untuk itu
Kelas yang tidak seimbang hanya menjadi masalah jika Anda juga memiliki ketidakseimbangan biaya klasifikasi yang salah. Jika ada kelas minoritas kecil dan tidak terlalu mahal untuk mengklasifikasikan mereka sebagai kelas mayoritas daripada sebaliknya, maka hal yang rasional untuk dilakukan adalah memungkinkan kesalahan klasifikasi kelas minoritas.
Jadi anggaplah Anda memiliki ketidakseimbangan kelas dan biaya. Ada beberapa cara untuk mengatasinya. Buku Max Kuhn "Applied predictive modeling" memiliki tinjauan yang baik di bab 16. Obat-obatan tersebut termasuk menggunakan cutoff selain 0,5 yang mencerminkan biaya yang tidak setara. Ini mudah dilakukan dalam klasifikasi biner selama classifier Anda mengeluarkan label probabilitas (pohon dan hutan melakukan ini). Saya belum melihat ke dalamnya untuk beberapa kelas. Anda juga dapat mengecoh kelas minoritas untuk memberikan bobot lebih.