Saya mencoba untuk menghapus kata-kata berhenti sebelum melakukan pemodelan topik. Saya perhatikan bahwa beberapa kata negasi (tidak, tidak, tidak, tidak ada, dll.) Biasanya dianggap sebagai kata-kata berhenti. Misalnya, NLTK, spacy dan sklearn menyertakan "tidak" pada daftar kata stop mereka. Namun, jika kita menghapus "tidak" dari kalimat-kalimat di bawah ini, mereka kehilangan makna yang signifikan dan itu tidak akan akurat untuk pemodelan topik atau analisis sentimen.
1). StackOverflow is helpful => StackOverflow helpful
2). StackOverflow is not helpful => StackOverflow helpful
Adakah yang bisa menjelaskan mengapa kata-kata pengingkaran ini biasanya dianggap sebagai kata-kata berhenti?