Pertanyaan yang diberi tag «topic-models»


3
Model topik dan kata metode co-kejadian
Model topik populer seperti LDA biasanya mengelompokkan kata-kata yang cenderung muncul bersama dalam topik yang sama (cluster). Apa perbedaan utama antara model topik tersebut, dan pendekatan pengelompokan sederhana berdasarkan kejadian bersama lainnya seperti PMI? (PMI singkatan dari Pointwise Mutual Information, dan digunakan untuk mengidentifikasi kata-kata yang muncul bersamaan dengan kata …


2
Interpretasi alami untuk hiperparameter LDA
Adakah yang bisa menjelaskan interpretasi alami untuk hiperparameter LDA? ALPHAdan BETAmerupakan parameter dari distribusi Dirichlet untuk masing-masing topik (per dokumen) dan (per topik) kata. Namun bisakah seseorang menjelaskan apa artinya memilih nilai yang lebih besar dari hiperparameter ini dibandingkan nilai yang lebih kecil? Apakah itu berarti menempatkan kepercayaan sebelumnya dalam …

2
Bagaimana cara menghitung kebingungan ketidaksepakatan dengan Alokasi Dirichlet Laten?
Saya bingung tentang cara menghitung kebingungan sampel ketidaksepakatan saat melakukan Latent Dirichlet Allocation (LDA). Makalah-makalah tentang topik itu membahasnya, membuat saya berpikir saya kehilangan sesuatu yang jelas ... Kesederhanaan dipandang sebagai ukuran kinerja yang baik untuk LDA. Idenya adalah bahwa Anda menyimpan sampel ketidaksepakatan, melatih LDA Anda pada sisa data, …

1
Prediksi topik menggunakan alokasi Dirichlet laten
Saya telah menggunakan LDA pada kumpulan dokumen dan menemukan beberapa topik. Output dari kode saya adalah dua matriks yang mengandung probabilitas; satu probabilitas doc-topic dan satu lainnya word-topic. Tapi saya sebenarnya tidak tahu bagaimana menggunakan hasil ini untuk memprediksi topik dokumen baru. Saya menggunakan sampling Gibbs. Adakah yang tahu bagaimana …

3
Model topik untuk dokumen pendek
Terinspirasi oleh pertanyaan ini , saya bertanya-tanya apakah ada pekerjaan yang telah dilakukan pada model topik untuk koleksi besar teks yang sangat pendek. Intuisi saya adalah bahwa Twitter harus menjadi inspirasi alami untuk model seperti itu. Namun, dari beberapa eksperimen terbatas, sepertinya model topik standar (LDA, dll) berkinerja sangat buruk …

1
Kapan menggunakan LDA daripada GMM untuk pengelompokan?
Saya memiliki dataset yang berisi aktivitas pengguna dengan 168 dimensi, di mana saya ingin mengekstraksi kluster menggunakan pembelajaran tanpa pengawasan. Tidak jelas bagi saya apakah akan menggunakan pendekatan pemodelan topik dalam alokasi Latent Dirichlet (LDA) atau Gaussian Mixture Model (GMM), yang lebih merupakan pendekatan Bayesian. Dalam hal itu saya punya …

1
Menggunakan kata-kata topik yang dihasilkan oleh LDA untuk mewakili dokumen
Saya ingin melakukan klasifikasi dokumen dengan mewakili setiap dokumen sebagai serangkaian fitur. Saya tahu bahwa ada banyak cara: BOW, TFIDF, ... Saya ingin menggunakan Latent Dirichlet Allocation (LDA) untuk mengekstrak kata kunci topik dokumen EACH TUNGGAL. dokumen diwakili oleh kata-kata topik ini. Tapi saya tidak tahu apakah itu masuk akal …
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.