Tapi saya tidak tahu apa perbedaan antara klasifikasi teks dan model topik dalam dokumen
Text Classification
adalah bentuk pembelajaran yang diawasi, oleh karena itu set kelas yang mungkin diketahui / didefinisikan sebelumnya , dan tidak akan berubah.
Topic Modeling
adalah bentuk pembelajaran tanpa pengawasan (mirip dengan pengelompokan), sehingga serangkaian topik yang mungkin tidak diketahui apriori . Mereka didefinisikan sebagai bagian dari pembuatan model topik. Dengan algoritma non-deterministik seperti LDA, Anda akan mendapatkan topik berbeda setiap kali Anda menjalankan algoritma.
Text classification
sering melibatkan kelas yang saling eksklusif - anggap ini sebagai ember.
Tetapi tidak harus: mengingat jenis data input berlabel yang tepat, Anda dapat menetapkan serangkaian pengklasifikasi biner yang tidak saling eksklusif.
Topic modeling
umumnya tidak saling eksklusif: dokumen yang sama dapat memiliki penyebaran probabilitasnya tersebar di banyak topik. Selain itu, ada juga metode pemodelan topik hirarkis.
Dapatkah saya menggunakan model topik untuk dokumen untuk mengidentifikasi satu topik nanti, bisakah saya menggunakan klasifikasi untuk mengklasifikasikan teks di dalam dokumen ini?
Jika Anda bertanya apakah Anda dapat mengambil semua dokumen yang ditetapkan untuk satu topik dengan algoritma pemodelan topik dan kemudian menerapkan classifier ke koleksi itu, maka ya, Anda tentu bisa melakukannya.
Saya tidak yakin itu masuk akal, meskipun: setidaknya, Anda harus memilih ambang batas untuk distribusi probabilitas topik di atas yang akan Anda sertakan dokumen dalam koleksi Anda (biasanya 0,05-0,1).
Bisakah Anda menguraikan kasus penggunaan Anda?
Omong-omong, ada tutorial yang bagus tentang pemodelan topik menggunakan perpustakaan MALLET untuk Java yang tersedia di sini: Memulai dengan Pemodelan Topik dan MALLET