Saya mencoba untuk meningkatkan kecepatan dengan R. Saya akhirnya ingin menggunakan pustaka R untuk melakukan klasifikasi teks. Saya hanya ingin tahu apa pengalaman orang-orang sehubungan dengan skalabilitas R ketika datang untuk melakukan klasifikasi teks.
Saya cenderung mengalami data dimensi tinggi (~ 300k dimensi). Saya melihat menggunakan SVM dan Random Forest khususnya sebagai algoritma klasifikasi.
Apakah perpustakaan R skala ke ukuran masalah saya?
Terima kasih.
EDIT 1: Hanya untuk memperjelas, kumpulan data saya cenderung memiliki 1000-3000 baris (mungkin sedikit lebih) dan 10 kelas.
EDIT 2: Karena saya sangat baru di R, saya akan meminta poster untuk lebih spesifik jika memungkinkan. Misalnya, jika Anda menyarankan alur kerja / pipa, pastikan untuk menyebutkan pustaka R yang terlibat dalam setiap langkah jika memungkinkan. Beberapa petunjuk tambahan (untuk contoh, kode contoh, dll.) Akan ditambahkan pada kue.
EDIT 3: Pertama, terima kasih semuanya atas komentar Anda. Dan kedua, saya minta maaf, mungkin saya seharusnya memberikan lebih banyak konteks untuk masalah ini. Saya baru mengenal R tetapi tidak terlalu banyak menggunakan klasifikasi teks. Saya sudah melakukan pra-pemrosesan (stemming, stopword removal, konversi tf-idf dll.) Pada beberapa bagian data saya menggunakan paket tm , hanya untuk merasakan sesuatu. Tm sangat lambat bahkan pada sekitar 200dok sehingga saya khawatir tentang skalabilitas. Kemudian saya mulai bermain dengan FSelector dan bahkan itu sangat lambat. Dan itulah titik di mana saya membuat OP saya.
EDIT 4: Baru saja saya sadar bahwa saya memiliki 10 kelas dan sekitar ~ 300 dokumen pelatihan per kelas, dan saya sebenarnya membangun matriks termXdoc dari seluruh rangkaian pelatihan yang menghasilkan dimensi yang sangat tinggi. Tetapi bagaimana dengan mengurangi setiap masalah klasifikasi 1-out-of-k menjadi serangkaian masalah klasifikasi biner? Itu akan secara drastis mengurangi jumlah dokumen pelatihan (dan karenanya dimensi) pada masing-masing langkah k-1, bukan? Jadi, apakah pendekatan ini bagus? Bagaimana cara membandingkannya dalam hal akurasi dengan implementasi multi-kelas yang biasa?