Dalam situasi apa lemmatization bukan langkah yang disarankan ketika bekerja dengan data teks?

Mengabaikan kemungkinan pembatasan komputasi, apakah ada aplikasi umum di mana lemmatization akan menjadi langkah kontraproduktif ketika menganalisis data teks?

Misalnya, apakah lemmatisasi akan menjadi sesuatu yang tidak dilakukan ketika membangun model yang sadar konteks?

Untuk referensi, lemmatization per dictinory.com adalah tindakan pengelompokan bersama bentuk-bentuk infleksi (kata) untuk analisis sebagai satu item.

Misalnya, kata 'masak' adalah lemma dari kata 'memasak'. Tindakan lemmatization, misalnya, mengganti kata memasak dengan juru masak setelah Anda tokenized data teks Anda. Selain itu, kata 'buruk' memiliki 'buruk' sebagai lemma-nya, dan sebagai contoh sebelumnya menggantikan kata 'buruk' dengan 'buruk' adalah tindakan lemasiasi.

nlp data-cleaning

— Zer0k
sumber

Saya pikir pertanyaan ini akan diperbaiki dengan deskripsi singkat tentang apa itu lemmatization

— kbrose

@ kbrose Baiklah, saya bisa menambahkan deskripsi singkat. Terima kasih atas sarannya.

— Zer0k

Terima kasih! Pertanyaan menarik. Saya ada hal-hal sederhana seperti bagian dari penandaan ucapan yang pasti akan dirugikan oleh lemmatization. Penasaran ingin melihat apakah ada lebih banyak

— kbrose

Tugas NLP yang akan dirugikan oleh lemmatization:

1) Klasifikasi tegang

      sentence        |  tense
------------------------------------
He cooked a nice meal |  past
He cooks a nice meal  |  present

Urutan karakter di akhir kata kerja dapat membantu dalam tugas ini. Kata kerja dimasak dan koki berbeda pada karakter terakhir ed dan s repectively.

Dengan lemmatization, informasi ini hilang. Kedua kata kerja menjadi masak , membuat kedua kalimat itu tampak (dalam hal ini) dalam present tense.

2) Identifikasi penulis

Diberikan

satu set dokumen ditulis oleh penulis , $\mathcal{P}$ $a$
satu set dokumen ditulis oleh penulis , $\mathcal{Q}$ $b$
satu set dokumen ditulis oleh penulis atau , $\mathcal{S}$ $a$ $b$

mengklasifikasikan jika dokumen ditulis oleh penulis atau . $s\in\mathcal{S}$ $a$ $b$

Salah satu cara untuk mencapai ini adalah dengan melihat histogram dari kata-kata yang ada di dan membandingkannya dengan dokumen dari dan dan pilih yang paling mirip. $s$ $\mathcal{P}$ $\mathcal{Q}$

Ini berfungsi karena penulis yang berbeda menggunakan kata-kata tertentu dengan frekuensi yang berbeda. Namun, dengan menggunakan lematization, Anda mendistorsi frekuensi ini sehingga mengganggu kinerja model Anda.

— Bruno Lubascher
sumber

Jadi pada dasarnya, ketika struktur dan gaya kalimat / dokumen itu relevan, lemmatisasi adalah sesuatu yang merugikan. Apakah saya mengerti ini dengan benar?

— Zer0k

@ Zer0k, benar. Ketika fitur-fitur penting yang granular pada kata-kata Anda tidak ingin lemmatization. Jika Anda memiliki tugas tingkat yang lebih tinggi, misalnya, analisis sentimen, Anda tidak perlu rincian ini. "Ini adalah restoran terburuk " atau "Ini adalah restoran buruk ", keduanya akan memberi Anda sentimen negatif .

— Bruno Lubascher

Saya takut tidak setuju dengan contoh identifikasi penulis. Apalagi dengan teks pendek lemmatization banyak membantu. Kalau tidak, vektor fitur terlalu jarang.

— Claude

@Claude, bisakah Anda sedikit mengembangkannya? Apa yang Anda definisikan sebagai teks pendek?

— Zer0k

@ Zer0k 200 token atau hingga 1000 atau lebih.

— Claude