Saya ingin menunjukkan, karena ini adalah salah satu hit Google teratas untuk topik ini, bahwa Latent Dirichlet Allocation (LDA), Hierarchical Dirichlet Processes (HDP), dan Latent Dirichlet Allocation (hLDA) adalah model yang berbeda.
LDA memodelkan dokumen sebagai campuran dirichlet dari sejumlah topik yang tetap - dipilih sebagai parameter model oleh pengguna - yang pada gilirannya merupakan campuran kata-kata dirichlet. Ini menghasilkan pengelompokan istilah yang datar dan lunak ke dalam topik dan dokumen menjadi topik.
HDP memodelkan topik sebagai campuran kata, seperti LDA, tetapi alih-alih dokumen merupakan campuran dari sejumlah topik, jumlah topik dihasilkan oleh proses balon, sehingga jumlah topik menjadi variabel acak juga. Bagian "hierarkis" dari nama mengacu pada level lain yang ditambahkan ke model generatif (proses balon yang menghasilkan jumlah topik), bukan topik itu sendiri - topik tersebut masih berupa pengelompokan yang datar.
hLDA, di sisi lain, adalah adaptasi dari LDA yang memodelkan topik sebagai campuran dari topik yang baru dan berbeda, diambil dari distribusi dirichletdan bukan proses. Itu masih memperlakukan sejumlah topik sebagai hyperparameter, yaitu, independen dari data. Perbedaannya adalah bahwa pengelompokan sekarang hirarkis - itu belajar pengelompokan dari set pertama topik itu sendiri, memberikan hubungan yang lebih umum, abstrak antara topik (dan karenanya, kata-kata dan dokumen). Anggap saja seperti mengelompokkan pertukaran tumpukan ke dalam matematika, sains, pemrograman, sejarah, dll. Yang bertentangan dengan pengelompokan ilmu data dan validasi silang ke dalam statistik abstrak dan topik pemrograman yang berbagi beberapa konsep dengan, katakanlah, rekayasa perangkat lunak, tetapi rekayasa perangkat lunak pertukaran dikelompokkan pada tingkat yang lebih konkret dengan pertukaran ilmu komputer, dan kesamaan antara semua pertukaran yang disebutkan tidak muncul sampai lapisan atas cluster.