Saya ingin melakukan klasifikasi pada data teks saya. Saya punya 300 classes
, 200 dokumen pelatihan per kelas (jadi 60000 documents in total
) dan ini cenderung menghasilkan data dimensi yang sangat tinggi (kita mungkin melihat lebih dari 1 juta dimensi ).
Saya ingin melakukan langkah-langkah berikut dalam pipa (hanya untuk memberi tahu Anda apa persyaratan saya):
- Mengubah setiap dokumen menjadi vektor fitur (
tf-idf
atauvector space model
) Feature selection
(Mutual Information
lebih disukai, atau yang standar lainnya)- Pelatihan classifier (
SVM
,Naive Bayes
,Logistic Regression
atauRandom Forest
) - Memprediksi data yang tidak terlihat berdasarkan model classifier yang dilatih.
Jadi pertanyaannya adalah alat / kerangka kerja apa yang saya gunakan untuk menangani data dimensi tinggi seperti itu? Saya mengetahui para tersangka biasa (R, WEKA ...) tetapi sejauh pengetahuan saya (saya mungkin salah) mungkin tidak ada dari mereka yang dapat menangani data sebesar ini. Apakah ada alat rak lain yang bisa saya lihat?
Jika saya harus memparalelkannya, haruskah saya melihat Apache Mahout ? Sepertinya itu mungkin belum cukup memberikan fungsionalitas yang saya butuhkan.
Terima kasih untuk semuanya.
Pembaruan: Saya melihat-lihat situs web ini , mailing list R dan internet secara umum. Tampak bagi saya bahwa masalah berikut dapat muncul dalam situasi saya:
(1) Memproses ulang data saya menggunakan R ( khususnya paket tm ) bisa jadi tidak praktis , karena tm
akan sangat lambat.
(2) Karena saya akan perlu menggunakan ansambel paket R (pra-pemrosesan, matriks jarang, pengklasifikasi, dll.) Interoperabilitas antara paket dapat menjadi masalah, dan saya dapat mengeluarkan biaya tambahan dalam mengonversi data dari satu format ke format lainnya. . Misalnya, jika saya melakukan pra-pemrosesan menggunakan tm
(atau alat eksternal seperti WEKA) saya perlu mencari cara untuk mengubah data ini menjadi bentuk yang bisa dibaca oleh perpustakaan HPC di R. Dan lagi tidak jelas bagi saya apakah paket classifier akan langsung mengambil data seperti yang disediakan oleh perpustakaan HPC.
Apakah saya di jalur yang benar? Dan yang lebih penting, apakah saya masuk akal?
foreach
perpustakaan menulis kode paralel dalam R. Ini bekerja sangat baik bersama dengan hutan acak, yang secara inheren mudah diparalelkan.