Untuk bereksperimen, kami ingin menggunakan Emoji yang tertanam di banyak Tweet sebagai data dasar / pelatihan untuk analisis senitmen kuantitatif sederhana. Tweet biasanya terlalu tidak terstruktur untuk NLP untuk bekerja dengan baik.
Bagaimanapun, ada 722 Emoji di Unicode 6.0, dan mungkin 250 Emoji lain akan ditambahkan di Unicode 7.0.
Apakah ada database (seperti misalnya SentiWordNet) yang berisi anotasi sentimen untuk mereka?
(Perhatikan bahwa SentiWordNet juga memungkinkan untuk makna yang ambigu . Pertimbangkan misalnya lucu , yang bukan hanya positif: "ini rasanya lucu" mungkin tidak positif ... sama akan berlaku ;-)
misalnya. Tapi saya tidak berpikir ini lebih sulit. untuk Emoji daripada untuk kata-kata biasa ...)
Juga, jika Anda memiliki pengalaman dalam menggunakannya untuk analisis sentimen, saya akan tertarik mendengarnya.