Fitur apa yang biasanya digunakan dari pohon Parse dalam proses klasifikasi di NLP?


13

Saya menjelajahi berbagai jenis struktur pohon parse. Dua struktur pohon parse yang dikenal luas adalah a) pohon parse berbasiskan konstituensi dan b) struktur pohon parsing berdasarkan ketergantungan.

Saya dapat menggunakan menghasilkan kedua jenis struktur pohon parse menggunakan paket NLP Stanford. Namun, saya tidak yakin bagaimana menggunakan struktur pohon ini untuk tugas klasifikasi saya.

Misalnya, jika saya ingin melakukan analisis sentimen dan ingin mengelompokkan teks ke dalam kelas positif dan negatif, fitur apa yang dapat saya peroleh dari struktur pohon parse untuk tugas klasifikasi saya?

Jawaban:


9

Dengan menggunakan pohon parse, Anda membagi kalimat menjadi beberapa bagian. Misalkan, dalam contoh analisis sentimen, Anda dapat menggunakan bagian-bagian itu untuk menetapkan sentimen positif / negatif untuk setiap bagian dan kemudian mengambil efek kumulatif dari bagian-bagian itu.

analisis sentimen

Gambar ini akan membantu Anda lebih memahami. Paruh pertama memiliki sentimen negatif (terutama karena kata "kering") tetapi karena kata "tetapi" dan penggunaan kata "dinikmati", sentimen negatif diubah menjadi sentimen positif.

Sedangkan untuk menggunakannya, Anda cukup membuat representasi vektor kata dari masing-masing kata dalam kalimat dan menggunakan neuron sebagai pengganti node induk. Setiap neuron harus terhubung ke neuron lain melalui pemberat. Semua node daun akan menjadi representasi vektor kata dari kata-kata kalimat. Neuron induk atas (dalam hal ini simbol + biru atas) harus menghasilkan sentimen positif / negatif sesuai dengan kalimat. Struktur pohon ini dapat dilatih dengan cara yang diawasi.

Bacalah makalah ini untuk penjelasan lebih lanjut.

Kredit gambar: cs224.stanford.edu


1

Saya pikir dependensi dapat digunakan untuk meningkatkan akurasi penggolong sentimen Anda. Perhatikan contoh-contoh berikut:

E1: Bill bukan seorang ilmuwan

dan berasumsi bahwa token "ilmuwan" memiliki sentimen positif dalam domain tertentu.

Mengetahui ketergantungan neg (ilmuwan, bukan) kita dapat melihat bahwa contoh di atas memiliki sentimen negatif. Tanpa mengetahui ketergantungan ini kita mungkin akan mengklasifikasikan kalimat sebagai positif.

Jenis dependensi lain dapat digunakan mungkin dengan cara yang sama untuk meningkatkan akurasi pengklasifikasi.

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.