Dengan sebagian besar jenis aplikasi ini, Anda harus menggulung sebagian besar kode Anda sendiri untuk tugas klasifikasi statistik. Seperti yang disarankan Lucka, NLTK adalah alat yang sempurna untuk manipulasi bahasa alami dengan Python, selama tujuan Anda tidak mengganggu sifat non komersial dari lisensinya. Namun, saya akan menyarankan paket perangkat lunak lain untuk pemodelan. Saya belum menemukan banyak model pembelajaran mesin canggih yang tersedia untuk Python, jadi saya akan menyarankan beberapa biner mandiri yang mudah bekerja sama dengannya.
Anda mungkin tertarik dengan The Toolkit for Advanced Discriminative Modeling , yang dapat dengan mudah dihubungkan dengan Python. Ini telah digunakan untuk tugas klasifikasi di berbagai bidang pemrosesan bahasa alami. Anda juga dapat memilih dari sejumlah model yang berbeda. Saya sarankan memulai dengan klasifikasi Entropi Maksimum selama Anda sudah terbiasa dengan penerapan pengklasifikasi Naive Bayes. Jika tidak, Anda mungkin ingin memeriksanya dan membuat kode untuk benar-benar mendapatkan pemahaman yang layak tentang klasifikasi statistik sebagai tugas pembelajaran mesin.
Kelompok linguistik komputasi Universitas Texas di Austin telah mengadakan kelas di mana sebagian besar proyek yang dihasilkan menggunakan alat yang hebat ini. Anda dapat melihat halaman kursus Computational Linguistics II untuk mendapatkan gambaran tentang bagaimana membuatnya bekerja dan aplikasi apa yang telah disajikan sebelumnya.
Alat hebat lainnya yang bekerja dengan nada yang sama adalah Palu . Perbedaan antara Mallet adalah bahwa ada lebih banyak dokumentasi dan beberapa model yang tersedia, seperti pohon keputusan, dan itu di Jawa, yang menurut saya, membuatnya sedikit lebih lambat. Weka adalah keseluruhan rangkaian model pembelajaran mesin yang berbeda dalam satu paket besar yang mencakup beberapa hal grafis, tetapi sebagian besar dimaksudkan untuk tujuan pedagogis, dan sebenarnya bukan sesuatu yang akan saya produksi.
Semoga berhasil dengan tugas Anda. Bagian yang paling sulit mungkin adalah jumlah rekayasa pengetahuan yang diperlukan di muka bagi Anda untuk mengklasifikasikan 'kumpulan benih' yang akan dipelajari model Anda. Ini harus cukup besar, tergantung pada apakah Anda melakukan klasifikasi biner (senang vs sedih) atau berbagai macam emosi (yang akan membutuhkan lebih banyak lagi). Pastikan untuk menyimpan beberapa dari data yang direkayasa ini untuk pengujian, atau jalankan beberapa tes sepuluh kali lipat atau hapus-satu untuk memastikan Anda benar-benar melakukan pekerjaan prediksi dengan baik sebelum Anda meletakkannya di sana. Dan yang terpenting, bersenang-senanglah! Ini adalah bagian terbaik dari NLP dan AI menurut saya.