NLP - mengapa "bukan" kata yang berhenti?


18

Saya mencoba untuk menghapus kata-kata berhenti sebelum melakukan pemodelan topik. Saya perhatikan bahwa beberapa kata negasi (tidak, tidak, tidak, tidak ada, dll.) Biasanya dianggap sebagai kata-kata berhenti. Misalnya, NLTK, spacy dan sklearn menyertakan "tidak" pada daftar kata stop mereka. Namun, jika kita menghapus "tidak" dari kalimat-kalimat di bawah ini, mereka kehilangan makna yang signifikan dan itu tidak akan akurat untuk pemodelan topik atau analisis sentimen.

1). StackOverflow is helpful      => StackOverflow helpful
2). StackOverflow is not helpful  => StackOverflow helpful

Adakah yang bisa menjelaskan mengapa kata-kata pengingkaran ini biasanya dianggap sebagai kata-kata berhenti?


2
Jika Anda melakukan analisis semantik kalimat, jelas penghubung logis adalah penting: (1) jika tidak (2). Jika Anda ingin membuat model logika kalimat-kalimat ini, jauhkan dari kantung stop. Mereka biasanya dilemparkan ke sana karena dari sudut pandang data mining, keberadaan 'tidak' dalam dokumen tidak akan memberi tahu kita banyak tentang topik untuk membantu kita membedakannya dari dokumen lain; itu tidak cukup langka. Mungkin ada alasan lain untuk mengabaikannya dalam tugas nlp.
Hunan Rostomyan

Jawaban:


20

Stop kata biasanya dianggap sebagai "kata yang paling umum dalam suatu bahasa". Namun, definisi lain berdasarkan tugas yang berbeda dimungkinkan.

Masuk akal untuk mempertimbangkan 'tidak' sebagai kata penghenti jika tugas Anda didasarkan pada frekuensi kata (mis. Analisis tf-idf untuk klasifikasi dokumen).

Jika Anda peduli dengan konteks (misalnya analisis sentimen ) teks, mungkin masuk akal untuk memperlakukan kata-kata negasi secara berbeda. Negasi mengubah apa yang disebut valensi teks. Ini perlu dirawat dengan hati-hati dan biasanya tidak sepele. Salah satu contoh akan menjadi corpus negasi Twitter. Penjelasan tentang pendekatan diberikan dalam makalah ini .

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.