Data sentimen untuk Emoji

Untuk bereksperimen, kami ingin menggunakan Emoji yang tertanam di banyak Tweet sebagai data dasar / pelatihan untuk analisis senitmen kuantitatif sederhana. Tweet biasanya terlalu tidak terstruktur untuk NLP untuk bekerja dengan baik.

Bagaimanapun, ada 722 Emoji di Unicode 6.0, dan mungkin 250 Emoji lain akan ditambahkan di Unicode 7.0.

Apakah ada database (seperti misalnya SentiWordNet) yang berisi anotasi sentimen untuk mereka?

(Perhatikan bahwa SentiWordNet juga memungkinkan untuk makna yang ambigu . Pertimbangkan misalnya lucu , yang bukan hanya positif: "ini rasanya lucu" mungkin tidak positif ... sama akan berlaku ;-)misalnya. Tapi saya tidak berpikir ini lebih sulit. untuk Emoji daripada untuk kata-kata biasa ...)

Juga, jika Anda memiliki pengalaman dalam menggunakannya untuk analisis sentimen, saya akan tertarik mendengarnya.

machine-learning classification parsing

— Erich Schubert
sumber

Jangan percaya bahwa sesuatu seperti ini ada saat ini, tetapi akan senang jika Anda menyatukan sesuatu untuk ini!

— indico

Erich Schubert, saya mencari hal yang sama persis! Apakah Anda memiliki peluang untuk menemukan sumber daya yang bermanfaat untuknya?

— saeed mehrabi

Jawaban:

Total 972 emoji tidak terlalu besar untuk tidak dapat melabeli mereka secara manual, tapi saya ragu mereka akan bekerja sebagai kebenaran dasar yang baik. Sumber-sumber seperti Twitter penuh dengan ironi, sarkasme, dan pengaturan rumit lainnya di mana simbol-simbol emosional (seperti emoji atau emoticon) memiliki arti yang berbeda dari interpretasi normal. Misalnya, seseorang dapat menulis "xxx menipu klien mereka, dan sekarang mereka menipu diri mereka sendiri! Ha ha ha!: D". Ini jelas merupakan komentar negatif, tetapi penulis senang melihat perusahaan xxx dalam kesulitan dan dengan demikian menambahkan emotikon positif. Kasus-kasus ini tidak sering, tetapi jelas tidak cocok untuk kebenaran dasar.

Pendekatan yang jauh lebih umum adalah dengan menggunakan emoticon sebagai benih untuk mengumpulkan kumpulan data aktual . Sebagai contoh, dalam makalah ini penulis menggunakan emoticon dan tag hash emosional untuk mengambil leksikon kata yang berguna untuk klasifikasi lebih lanjut.

— teman
sumber

Sebenarnya saya tidak setuju. Karena penulis suka mereka dalam masalah, itu adalah sentimen positif di sana. Ini adalah komentar negatif pada perusahaan, namun demikian sentimen positif oleh penulis. Dalam skenario yang lebih sederhana ini (saya tidak mengatakan ini adalah tujuan lengkap), memprediksi emoji mana yang akan ditambahkan pengguna ke posnya terdengar seperti tugas yang masuk akal bagi saya. Bahkan Anda dapat membuat banyak kasus di mana emoji akan menjadi sangat penting .. Pertimbangkan "Got f_cked :-)" sebagai lawan dari "Got f_cked. :-("

— Erich Schubert

Jika Anda mencoba memperkirakan emosi seseorang sebagai lawan dari sikap seseorang terhadap suatu subjek, maka ya, contoh ini tidak berfungsi. Tetapi ada banyak lainnya. Sarkasme adalah kasus umum. Pertimbangkan kalimat "oh yeah, Anda benar-benar 'tuan';)". Manusia dapat menangkap konteks negatif, tetapi emotikon positif akan menunjukkan emosi positif. Tapi saya belum benar-benar mengerti: apakah Anda ingin mengekstrak informasi subjektif dari tweet atau hanya memprediksi emoji yang mungkin? Meskipun kedengarannya mirip, tugas kedua sebenarnya bukan tentang analisis sentimen. Setidaknya tidak secara langsung.

— Berteman

"Wink" smiley biasanya tidak dianggap "positif", tetapi "ironis" ... itulah sebabnya kamus yang bagus seperti SentiWordNet masuk akal. Jika Anda terlihat lucu di SentiWordNet, ini memiliki lebih dari satu makna juga! sentiwordnet.isti.cnr.it/search.php?q=funny (Jadi ini bukan hal sepele untuk memberikan keterangan secara manual, karena itu tidak sesederhana positif / negatif, tetapi Anda harus melakukan hal yang biasa interrater-kesepakatan validasi dll)

— Erich Schubert

Sekarang saya melihat ide Anda. Tapi saya tidak benar-benar berpikir itu akan berhasil, hanya karena (sebagian besar) emoji tidak benar-benar terdengar seperti prediktor yang baik bagi saya, dan Anda secara eksplisit tidak ingin menggunakan fitur lain. Bagaimanapun, ini hanya pendapat berdasarkan pengalaman saya, hanya data yang bisa memberikan jawaban nyata. Semoga berhasil!

— Berteman

Siapa bilang saya tidak ingin menggunakan fitur lain? Tetapi untuk ini saya telah melihat database ...

— Erich Schubert

Saya menemukan repo Github ini berguna (awal yang baik): https://github.com/wooorm/emoji-emotion Daftar emoji yang diberi peringkat valensi dengan bilangan bulat antara minus lima (negatif) dan ditambah lima (positif).

Lihat daftar unicode-emojis yang didukung: https://github.com/wooorm/emoji-emotion/blob/master/Support.md

Perhatikan bahwa beberapa emoji menerima polaritas yang membingungkan, seperti stuck_out_tongue_closed_eyes (0), karena digunakan untuk emosi positif dan negatif.

— Tal Weiss
sumber