Saya sedang mengerjakan masalah multiclass dengan 9 kemungkinan label, yang mana saya memiliki dataset yang terdiri dari ~ 50.000 contoh dan ~ 200 fitur masing-masing. Setiap contoh hanya dapat dimiliki oleh satu kelas. Data cukup seimbang di antara label yang berbeda.
Mengingat kekokohan dan skalabilitasnya, saya memutuskan untuk menggunakan Random Forest (dengan ansambel 1000 pohon) sebagai metode pembelajaran. Untuk menilai akurasi kinerja model yang diberikan dataset ini, saya menggunakan stratified5Fold cross-validation (Saya menggunakan scikit-belajar 0,18).
Karena Random Forest secara inheren dapat menangani dataset multiclass, saya menggunakannya secara langsung pada dataset yang diberikan dan memperoleh akurasi 79,5 0,3. Saya juga tertarik mengetahui fitur mana yang lebih penting, sesuatu yang dapat dengan mudah diekstraksi dari atribut feature_importances_ di RandomForestClassifier dari scikit. Namun, mengingat bahwa dataset sangat seimbang dan bahwa, seperti yang diharapkan, ada jumlah fitur yang hampir sama dari 200 untuk berkontribusi ke kelas yang berbeda, saya tidak dapat mengisolasi fitur mana yang paling berkontribusi untuk setiap kelas.
Sebagai konsekuensinya, saya mengadopsi strategi satu-lawan-semua menggunakan pengaturan Hutan Acak yang sama (dengan cara biaya-sensitif, dengan mempertimbangkan ketidakseimbangan data saat menggunakan strategi oneVsAll), yang memungkinkan saya melihat untuk setiap kelas versus sisanya fitur mana yang lebih penting. Hasil yang saya dapatkan tentang ini masuk akal. Terlebih lagi, ketika melihat kinerja model yang menggunakan strategi ini, saya mendapatkan akurasi 0,8,7 , yang menurut saya mengejutkan karena saya mengharapkan multiclass Random Forest untuk mengklasifikasikan lebih baik mengingat sifat multiclassnya.
Apakah saya benar dalam hal ini? Mungkinkah perbedaan dalam akurasi itu masuk akal? Lebih lanjut, Apakah strategi di atas diadopsi OK dan adil mengingat bahwa Random Forest dengan sendirinya dapat mengatasi masalah multiclass tanpa "peretasan" seperti strategi oneVsAll?