Kapan menggunakan LDA daripada GMM untuk pengelompokan?

Saya memiliki dataset yang berisi aktivitas pengguna dengan 168 dimensi, di mana saya ingin mengekstraksi kluster menggunakan pembelajaran tanpa pengawasan. Tidak jelas bagi saya apakah akan menggunakan pendekatan pemodelan topik dalam alokasi Latent Dirichlet (LDA) atau Gaussian Mixture Model (GMM), yang lebih merupakan pendekatan Bayesian. Dalam hal itu saya punya 2 pertanyaan terkait:

Apa pembeda utama antara kedua metode? Saya tahu dasar-dasar kedua model, tetapi saya ingin tahu tentang apa yang benar-benar membedakan satu dari yang lain. Dapatkah sesuatu dalam masalah / data memberi tahu saya apakah satu model lebih cocok?
Jika saya menerapkan kedua metode ke data saya, bagaimana saya bisa membandingkan hasilnya untuk melihat metode mana yang lebih baik?

Memperbarui

168 variabel aktivitas pengguna adalah jumlah aktivitas, sehingga memiliki nilai diskrit positif. Tidak ada nilai maksimum, tetapi sekitar 90% variabel mencapai nilai dalam interval . $[0,3]$

Mungkin masuk akal hanya memodelkan semua variabel aktivitas ini sebagai variabel biner yang menggambarkan apakah itu nol atau tidak nol, tetapi kami belum cukup tahu tentang masalah untuk menentukan itu. Hal utama yang kami cari adalah wawasan tentang berbagai kelompok aktivitas pengguna.

— pir
sumber

Tidak LDA mengharuskan data Anda semua variabel kategori multinomial, sedangkan GMM tentu mensyaratkan bahwa data Anda semua variabel kontinu. Jenis data apa yang merupakan 168 variabel aktivitas pengguna Anda?

— gung - Reinstate Monica

Itu mungkin saja. Lihat posting asli yang diperbarui.

— pir

Saya tidak akan menggunakan model campuran Gaussian , karena mereka membutuhkan distribusi konstituen agar semuanya normal. Anda memiliki hitungan, jadi GMM tidak sesuai dengan definisi.

Alokasi Dirichlet Laten (pengungkapan penuh: Saya tidak benar-benar tahu pemodelan topik) mengharuskan data Anda bersifat multinomial , tetapi Anda dapat memiliki jumlah dalam hal itu — mereka akan menjadi jumlah kemunculan berbagai kategori kategori yang berbeda. Kemungkinan lain adalah bahwa jumlah Anda adalah jumlah variabel yang berbeda, seperti memiliki beberapa variabel Poisson . Ini adalah sedikit pertanyaan ontologis untuk bagaimana Anda berpikir tentang data Anda.

Pertimbangkan contoh sederhana di mana saya pergi ke toko kelontong karena saya ingin buah. Saya akan membeli sejumlah apel, jeruk, buah persik dan pisang. Masing-masing dapat dianggap sebagai variabel Poisson terpisah. Ketika sampai di rumah, saya menaruh semuanya di mangkuk buah. Kemudian, ketika saya merasa ingin ngemil, saya mungkin meraih ke dalam mangkuk tanpa melihat dan mengambil dua potong buah (misalnya, apel dan buah persik). Itu dapat dianggap sebagai undian dari distribusi multinomial. Dalam kedua kasus, saya memiliki jumlah kategori, tetapi kami memikirkannya secara berbeda. Dalam kasus pertama, buah-buahan yang akan saya beli diketahui sebelum saya pergi ke toko kelontong, tetapi jumlah yang dibeli di setiap kategori dapat bervariasi. Dalam kasus kedua, saya tidak tahu buah apa yang akan saya pilih tetapi saya tahu saya mengambil dua dari jenis yang mungkin.

Jika data Anda seperti contoh mangkuk buah, LDA mungkin sesuai untuk Anda. Di sisi lain, jika mereka seperti contoh toko kelontong, Anda bisa mencoba pemodelan campuran hingga Poisson . Artinya, Anda bisa menggunakan pemodelan campuran dengan distribusi selain Gaussian / normal. GMM adalah yang paling umum sejauh ini; distribusi lain (seperti Poisson) lebih eksotis. Saya tidak tahu seberapa luas penerapannya dalam perangkat lunak. Jika Anda menggunakan R, Googling mengarah pada penemuan ? PoisMixClus dalam paket HTSCluster dan paket rebmix (perhatikan bahwa saya tidak pernah menggunakan keduanya, atau melakukan pemodelan campuran Poisson). Dimungkinkan untuk menemukan implementasi untuk perangkat lunak lain juga.

Menambahkan beberapa spesifik: Saya akan mengatakan LDA setidaknya sama banyak teknik Bayesian seperti GMM.

Saya menduga perbedaan paling penting antara LDA dan GMM adalah jenis data yang mereka anggap Anda miliki.
Anda tidak dapat membandingkannya, karena mereka untuk berbagai jenis data. (Saya juga tidak ingin membandingkan LDA dan Poisson MM, karena mereka mengonsep penghitungan secara berbeda.)

Saya tidak akan mendikotomasi data Anda menjadi nol / non-nol.

— gung - Pasang kembali Monica
sumber

168 variabel aktivitas pengguna ini dihitung dalam satu minggu, padahal sebenarnya kami memiliki beberapa minggu data untuk setiap pengguna. Jika kita mengambil rata-rata 30+ minggu data hitungan dan menggunakan ini untuk pengelompokan - apakah itu akan membuat perbedaan? Berdasarkan pemahaman saya tentang CLT, variabel berdasarkan rata-rata akan terdistribusi normal dan karenanya menjunjung tinggi persyaratan GMM.

— pir

Berarti dari distribusi dengan N besar harus normal. Saya pikir Anda bisa menggunakan GMM kalau begitu.

— gung - Reinstate Monica