Saya mencari beberapa petunjuk tentang cara membuat daftar stopwords. Adakah yang tahu / bisakah seseorang merekomendasikan metode yang bagus untuk mengekstrak daftar stopword dari dataset itu sendiri untuk preprocessing dan filtering?
Data:
sejumlah besar input teks manusia dengan panjang variabel (pencarian dan seluruh kalimat (hingga 200 karakter)) selama beberapa tahun. Teks tersebut mengandung banyak spam (seperti input mesin dari bot, kata tunggal, pencarian bodoh, pencarian produk ...) dan hanya beberapa% yang tampaknya berguna. Saya menyadari bahwa kadang-kadang (sangat jarang) orang mencari di sisi saya dengan mengajukan pertanyaan yang sangat keren. Pertanyaan-pertanyaan ini sangat keren, sehingga saya pikir perlu untuk melihat lebih dalam pada mereka untuk melihat bagaimana orang mencari dari waktu ke waktu dan topik apa yang orang tertarik menggunakan situs web saya.
Masalahku:
adalah bahwa saya benar-benar berjuang dengan preprocessing (yaitu menjatuhkan spam). Saya sudah mencoba beberapa daftar stopword dari web (NLTK dll.), Tetapi ini tidak terlalu membantu kebutuhan saya mengenai dataset ini.
Terima kasih atas ide dan diskusi kalian!
stop words
. Stop-wrods adalah daftar yang paling kata-kata umum dalam beberapa bahasa, misalnya I
, the
, a
dan sebagainya. Anda hanya akan menghapus kata-kata ini dari teks Anda sebelum mulai melatih algoritma Anda yang mencoba mengidentifikasi teks mana yang merupakan spam atau bukan. Itu tidak membantu Anda mengidentifikasi teks mana yang merupakan spam atau bukan, itu dapat meningkatkan algoritma pembelajaran Anda.