Interpretasi alami untuk hiperparameter LDA

21

Adakah yang bisa menjelaskan interpretasi alami untuk hiperparameter LDA? ALPHAdan BETAmerupakan parameter dari distribusi Dirichlet untuk masing-masing topik (per dokumen) dan (per topik) kata. Namun bisakah seseorang menjelaskan apa artinya memilih nilai yang lebih besar dari hiperparameter ini dibandingkan nilai yang lebih kecil? Apakah itu berarti menempatkan kepercayaan sebelumnya dalam hal sparsity topik dalam dokumen dan saling eksklusif topik dalam hal kata-kata?

Pertanyaan ini adalah tentang alokasi Dirichlet laten, tetapi komentar oleh BGReene langsung di bawah ini mengacu pada analisis diskriminan linier, yang secara membingungkan juga disingkat LDA.

— abhinavkulkarni
sumber

Saya pikir Anda perlu memberikan lebih detail tentang formulasi LDA mana yang Anda gunakan. Umumnya hanya model RDA yang memiliki parameter tersebut, LDA biasanya didefinisikan sepenuhnya oleh vektor rata-rata, matriks kovarians dan probabilitas sebelumnya.

— BGreene

11

David Blei berbicara banyak dengan memperkenalkan LDA kepada siswa kelas musim panas: http://videolectures.net/mlss09uk_blei_tm/

Dalam video pertama ia membahas secara luas ide dasar pemodelan topik dan bagaimana distribusi Dirichlet ikut bermain. Notasi pelat dijelaskan seolah-olah semua variabel tersembunyi diamati untuk menunjukkan dependensi. Pada dasarnya topik adalah distribusi atas kata-kata dan distribusi dokumen atas topik.

Dalam video kedua ia menunjukkan efek alpha dengan beberapa grafik sampel. Semakin kecil alfa, semakin jarang distribusi. Juga, ia memperkenalkan beberapa pendekatan inferensi.

— Karsten
sumber

7

ini seharusnya bukan jawaban yang diterima

— samsamara

Saya kira Anda benar. Saya benar-benar lupa bahwa saya menulis ini.

— Karsten

oh! tidak berharap melihat komentar dari penulis! hehe :)

— samsamara

48

Jawabannya tergantung pada apakah Anda mengasumsikan distribusi dirichlet simetris atau asimetris (atau, lebih teknis, apakah ukuran dasar seragam). Kecuali sesuatu yang lain ditentukan, sebagian besar implementasi LDA menganggap distribusi simetris.

Untuk distribusi simetris, nilai alfa tinggi berarti bahwa setiap dokumen cenderung berisi campuran sebagian besar topik, dan bukan topik tunggal mana pun secara khusus. Nilai alfa yang rendah mengurangi kendala pada dokumen dan berarti kemungkinan besar dokumen berisi campuran beberapa, atau bahkan hanya satu, dari topik. Demikian juga, nilai beta yang tinggi berarti bahwa setiap topik cenderung mengandung campuran sebagian besar kata, dan bukan kata apa pun secara khusus, sedangkan nilai yang rendah berarti bahwa suatu topik dapat mengandung campuran hanya beberapa kata saja.

Jika, di sisi lain, distribusinya asimetris, nilai alpha tinggi berarti bahwa distribusi topik tertentu (tergantung pada ukuran dasar) lebih mungkin untuk setiap dokumen. Demikian pula, nilai beta tinggi berarti setiap topik lebih cenderung mengandung campuran kata tertentu yang ditentukan oleh ukuran dasar.

Dalam praktiknya, nilai alpha tinggi akan menyebabkan dokumen menjadi lebih mirip dalam hal topik apa yang dikandungnya. Nilai beta yang tinggi juga akan menyebabkan topik menjadi lebih mirip dalam hal kata-kata yang dikandungnya.

Jadi, ya, parameter alpha menentukan keyakinan sebelumnya tentang sparsity / keseragaman topik dalam dokumen. Saya tidak sepenuhnya yakin apa yang Anda maksud dengan "saling eksklusif topik dalam hal kata-kata".

Secara umum, ini adalah parameter konsentrasi untuk distribusi balon yang digunakan dalam model LDA. Untuk mendapatkan pemahaman intuitif tentang cara kerjanya, presentasi ini berisi beberapa ilustrasi yang bagus, serta penjelasan yang baik tentang LDA secara umum.

$(\alpha_1, \alpha_2, ... ,\alpha_K)$ $u = (u_1, u_2, ..., u_K)$ $\alpha$ $\alpha * \textbf{u} = (\alpha_1, \alpha_2, ... ,\alpha_K)$ $\alpha$ $(\alpha_1, \alpha_2, ... ,\alpha_K)$ $(\alpha_1, \alpha_2, ... ,\alpha_K)$

— AMO
sumber

2

+1 jawaban informatif! Saya ingin bertanya seberapa tinggi / rendah nilai tinggi / rendah untuk alpha dan beta secara umum?

— samsamara

Beta seharusnya menjadi distribusi kata-kata untuk setiap topik (sebuah matriks), bukan? Jadi, bagaimana nilai tunggal diterjemahkan ke dalam matriks?

— Noamiko

Apakah saya benar dalam menyimpulkan bahwa alfa tinggi berarti dokumen itu serupa, dan beta tinggi berarti topiknya serupa?

— Lewistrick