Baru-baru ini, banyak literatur yang membahas cara mengekstrak informasi dari teks tertulis telah berkembang. Oleh karena itu saya hanya akan menggambarkan empat tonggak / model populer dan kelebihan / kekurangannya dan dengan demikian menyoroti (beberapa) perbedaan utama (atau setidaknya apa yang saya pikir adalah perbedaan utama / paling penting).
Anda menyebutkan pendekatan "termudah", yang akan mengelompokkan dokumen dengan mencocokkannya dengan permintaan istilah yang telah ditentukan (seperti dalam PMI). Namun metode pencocokan leksikal ini mungkin tidak akurat karena polisemi (beberapa makna) dan sinonim (beberapa kata yang memiliki makna yang sama) dari istilah tunggal.
Sebagai solusi, pengindeksan semantik laten ( LSI ) mencoba mengatasinya dengan memetakan istilah dan dokumen ke dalam ruang semantik laten melalui dekomposisi nilai singular. Hasil LSI adalah indikator makna yang lebih kuat daripada istilah individual. Namun, satu kelemahan dari LSI adalah bahwa ia tidak memiliki fondasi probabilistik yang kuat.
Ini sebagian diselesaikan dengan penemuan probabilistic LSI ( pLSI ). Dalam model pLSI setiap kata dalam dokumen diambil dari model campuran yang ditentukan melalui variabel acak multinomial (yang juga memungkinkan co-kejadian tingkat tinggi seperti yang disebutkan @sviatoslav hong). Ini adalah langkah maju yang penting dalam pemodelan teks probabilistik, tetapi tidak lengkap dalam arti bahwa ia tidak menawarkan struktur probabilistik di tingkat dokumen.
Latent Dirichlet Allocation ( LDA ) meringankan ini dan merupakan model probabilistik penuh pertama untuk pengelompokan teks. Blei et al. (2003) menunjukkan bahwa pLSI adalah maksimum yang diperkirakan model LDA di bawah Dirichlet seragam sebelumnya.
Perhatikan bahwa model yang disebutkan di atas (LSI, pLSI, LDA) memiliki kesamaan bahwa mereka didasarkan pada asumsi "kata-kata" - yaitu bahwa dalam suatu dokumen, kata-kata dapat dipertukarkan, yaitu urutan kata dalam dokumen dapat diabaikan. Asumsi pertukaran ini memberikan pembenaran lebih lanjut untuk LDA atas pendekatan lain: Dengan asumsi bahwa tidak hanya kata-kata dalam dokumen dapat dipertukarkan, tetapi juga dokumen, yaitu, urutan dokumen dalam korpus dapat diabaikan, teorema De Finettimenyatakan bahwa setiap set variabel acak yang dapat dipertukarkan memiliki representasi sebagai distribusi campuran. Jadi jika pertukaran untuk dokumen dan kata-kata dalam dokumen diasumsikan, model campuran untuk keduanya diperlukan. Persis inilah yang umumnya dicapai LDA tetapi PMI atau LSI tidak (dan bahkan pLSI tidak seindah LDA).