Saya mengeksplorasi berbagai metode klasifikasi untuk proyek yang sedang saya kerjakan, dan saya tertarik untuk mencoba Hutan Acak. Saya mencoba mendidik diri sendiri seiring berjalannya waktu, dan akan menghargai setiap bantuan yang diberikan oleh komunitas CV.
Saya telah membagi data saya ke dalam set pelatihan / tes. Dari percobaan dengan hutan acak di R (menggunakan paket randomForest), saya telah mengalami masalah dengan tingkat kesalahan klasifikasi yang tinggi untuk kelas saya yang lebih kecil. Saya telah membaca makalah ini mengenai kinerja hutan acak pada data yang tidak seimbang, dan penulis menyajikan dua metode untuk mengatasi ketidakseimbangan kelas saat menggunakan hutan acak.
1. Hutan Acak Tertimbang
2. Hutan Acak Seimbang
Paket R tidak memungkinkan pembobotan kelas (dari forum bantuan R, saya telah membaca parameter classwt tidak berkinerja baik dan dijadwalkan sebagai perbaikan bug di masa mendatang), jadi saya dibiarkan dengan opsi 2. Saya dapat menentukan jumlah objek sampel dari setiap kelas untuk setiap iterasi hutan acak.
Saya merasa tidak nyaman untuk menetapkan ukuran sampel yang sama untuk hutan acak, karena saya merasa saya akan kehilangan terlalu banyak informasi tentang kelas yang lebih besar yang menyebabkan kinerja yang buruk dengan data masa depan. Tingkat kesalahan klasifikasi ketika downsampling kelas yang lebih besar telah terbukti membaik, tetapi saya bertanya-tanya apakah ada cara lain untuk menangani ukuran kelas yang tidak seimbang di hutan acak?