Saya tidak akan menggunakan model campuran Gaussian , karena mereka membutuhkan distribusi konstituen agar semuanya normal. Anda memiliki hitungan, jadi GMM tidak sesuai dengan definisi.
Alokasi Dirichlet Laten (pengungkapan penuh: Saya tidak benar-benar tahu pemodelan topik) mengharuskan data Anda bersifat multinomial , tetapi Anda dapat memiliki jumlah dalam hal itu — mereka akan menjadi jumlah kemunculan berbagai kategori kategori yang berbeda. Kemungkinan lain adalah bahwa jumlah Anda adalah jumlah variabel yang berbeda, seperti memiliki beberapa variabel Poisson . Ini adalah sedikit pertanyaan ontologis untuk bagaimana Anda berpikir tentang data Anda.
Pertimbangkan contoh sederhana di mana saya pergi ke toko kelontong karena saya ingin buah. Saya akan membeli sejumlah apel, jeruk, buah persik dan pisang. Masing-masing dapat dianggap sebagai variabel Poisson terpisah. Ketika sampai di rumah, saya menaruh semuanya di mangkuk buah. Kemudian, ketika saya merasa ingin ngemil, saya mungkin meraih ke dalam mangkuk tanpa melihat dan mengambil dua potong buah (misalnya, apel dan buah persik). Itu dapat dianggap sebagai undian dari distribusi multinomial. Dalam kedua kasus, saya memiliki jumlah kategori, tetapi kami memikirkannya secara berbeda. Dalam kasus pertama, buah-buahan yang akan saya beli diketahui sebelum saya pergi ke toko kelontong, tetapi jumlah yang dibeli di setiap kategori dapat bervariasi. Dalam kasus kedua, saya tidak tahu buah apa yang akan saya pilih tetapi saya tahu saya mengambil dua dari jenis yang mungkin.
Jika data Anda seperti contoh mangkuk buah, LDA mungkin sesuai untuk Anda. Di sisi lain, jika mereka seperti contoh toko kelontong, Anda bisa mencoba pemodelan campuran hingga Poisson . Artinya, Anda bisa menggunakan pemodelan campuran dengan distribusi selain Gaussian / normal. GMM adalah yang paling umum sejauh ini; distribusi lain (seperti Poisson) lebih eksotis. Saya tidak tahu seberapa luas penerapannya dalam perangkat lunak. Jika Anda menggunakan R, Googling mengarah pada penemuan ? PoisMixClus dalam paket HTSCluster dan paket rebmix (perhatikan bahwa saya tidak pernah menggunakan keduanya, atau melakukan pemodelan campuran Poisson). Dimungkinkan untuk menemukan implementasi untuk perangkat lunak lain juga.
Menambahkan beberapa spesifik: Saya akan mengatakan LDA setidaknya sama banyak teknik Bayesian seperti GMM.
- Saya menduga perbedaan paling penting antara LDA dan GMM adalah jenis data yang mereka anggap Anda miliki.
- Anda tidak dapat membandingkannya, karena mereka untuk berbagai jenis data. (Saya juga tidak ingin membandingkan LDA dan Poisson MM, karena mereka mengonsep penghitungan secara berbeda.)
Saya tidak akan mendikotomasi data Anda menjadi nol / non-nol.