Terinspirasi oleh pertanyaan ini , saya bertanya-tanya apakah ada pekerjaan yang telah dilakukan pada model topik untuk koleksi besar teks yang sangat pendek. Intuisi saya adalah bahwa Twitter harus menjadi inspirasi alami untuk model seperti itu. Namun, dari beberapa eksperimen terbatas, sepertinya model topik standar (LDA, dll) berkinerja sangat buruk pada data jenis ini.
Adakah yang tahu ada pekerjaan yang dilakukan di daerah ini? Makalah ini berbicara tentang menerapkan LDA ke Twitter, tapi saya benar-benar tertarik pada apakah ada algoritma lain yang berkinerja lebih baik dalam konteks dokumen pendek.