Saya berencana untuk menggunakan classifier scikit linear support vector machine (SVM) untuk klasifikasi teks pada corpus yang terdiri dari 1 juta dokumen berlabel. Apa yang saya rencanakan untuk lakukan adalah, ketika pengguna memasukkan beberapa kata kunci, classifier pertama akan mengklasifikasikannya dalam kategori, dan kemudian pencarian informasi berikutnya akan terjadi di dalam dokumen kategori kategori tersebut. Saya punya beberapa pertanyaan:
- Bagaimana saya mengonfirmasi bahwa klasifikasi tidak akan memakan banyak waktu? Saya tidak ingin pengguna harus menghabiskan waktu menunggu klasifikasi selesai untuk mendapatkan hasil yang lebih baik.
- Apakah menggunakan pustaka scikit Python untuk situs web / aplikasi web cocok untuk ini?
- Adakah yang tahu bagaimana amazon atau flipkart melakukan klasifikasi pada permintaan pengguna, atau apakah mereka menggunakan logika yang sama sekali berbeda?