Apakah ada implementasi hutan acak R yang bekerja dengan baik dengan data yang sangat jarang? Saya memiliki ribuan atau jutaan variabel input boolean, tetapi hanya ratusan atau lebih akan BENAR untuk setiap contoh yang diberikan.
Saya relatif baru untuk R dan memperhatikan bahwa ada paket 'Matrix' untuk menangani data yang jarang, tetapi paket 'randomForest' standar tampaknya tidak mengenali tipe data ini. Jika itu penting, data input akan diproduksi di luar R dan diimpor.
Ada saran? Saya juga dapat melihat menggunakan Weka, Mahout atau paket lainnya.