Distribusi Dirichlet adalah distribusi multivarian. Kita dapat menunjukkan parameter Dirichlet sebagai vektor ukuran K dari formulir ~ , di manaaadalah vektor ukuranKdari parameter, dan∑xi=1.1B ( a )⋅ ∏sayaxSebuahi - 1sayaSebuahK∑ xsaya= 1
Sekarang LDA menggunakan beberapa konstruksi seperti:
- sebuah dokumen dapat memiliki banyak topik (karena banyaknya ini, kita membutuhkan distribusi Dirichlet); dan ada distribusi Dirichlet yang memodelkan hubungan ini
- kata-kata juga bisa menjadi bagian dari banyak topik, ketika Anda menganggapnya di luar dokumen; jadi di sini kita membutuhkan Dirichlet lain untuk memodelkan ini
Dua yang sebelumnya adalah distribusi yang tidak benar-benar Anda lihat dari data, ini sebabnya disebut laten, atau disembunyikan.
xθ
p ( θ | x ) = p ( x | θ ) p ( θ | α )p ( x | α )⟺probabilitas posterior = kemungkinan × probabilitas sebelumnyakemungkinan marjinal
α
Parameter sebelumnya disebut hyperparameters . Jadi, dalam LDA, kedua distribusi topik, lebih dari dokumen dan lebih dari kata-kata juga memiliki prior koresponden, yang dilambangkan biasanya dengan alpha dan beta, dan karena parameter distribusi sebelumnya disebut hyperparameters.
αkx
αk
αk
αk
Tambahan, harap dicatat bahwa nilai-nilai untuk parameter priors menghasilkan pdf distribusi yang halus karena nilai-nilai parameternya mendekati 1. Jadi, jika Anda memiliki keyakinan besar bahwa ada sesuatu yang terdistribusi dengan jelas dengan cara yang Anda ketahui, dengan tingkat kepercayaan yang tinggi, daripada nilai-nilai yang jauh dari 1 dalam nilai absolut harus digunakan, jika Anda tidak memiliki pengetahuan seperti itu maka nilai-nilai dekat 1 akan menyandikan kurangnya pengetahuan ini. Mudah untuk melihat mengapa saya memainkan peran seperti itu dalam distribusi Dirichlet dari rumus distribusi itu sendiri.
αkαk
Semoga ini bisa membantu.