Saya mempertimbangkan untuk menggunakan pustaka Python untuk melakukan eksperimen Machine Learning saya. Sejauh ini, saya mengandalkan WEKA, tetapi secara keseluruhan tidak puas. Ini terutama karena saya menemukan WEKA tidak begitu didukung (sangat sedikit contoh, dokumentasi jarang dan dukungan masyarakat kurang dari yang diinginkan dalam pengalaman saya), dan telah menemukan diri saya dalam situasi yang sulit tanpa bantuan yang akan datang. Alasan lain saya merenungkan langkah ini adalah karena saya benar-benar menyukai Python (saya baru mengenal Python), dan tidak ingin kembali ke pengkodean di Jawa.
Jadi pertanyaan saya adalah, apa lagi
- luas
- scalable (fitur 100k, contoh 10k) dan
- perpustakaan yang didukung dengan baik untuk melakukan ML dengan Python di luar sana?
Saya sangat tertarik melakukan klasifikasi teks, dan ingin menggunakan perpustakaan yang memiliki koleksi pengklasifikasi yang baik, metode pemilihan fitur (Penguatan Informasi, Chi-Sqaured, dll.), Dan kemampuan pra-pemrosesan teks (membendung, menghentikan penghentian kata-kata) , tf-idf dll.).
Berdasarkan utas email sebelumnya di sini dan di tempat lain, saya telah melihat PyML, scikits-learn dan Orange sejauh ini. Bagaimana pengalaman orang-orang sehubungan dengan 3 metrik di atas yang saya sebutkan?
Ada saran lain?