Saya bingung tentang cara menghitung kebingungan sampel ketidaksepakatan saat melakukan Latent Dirichlet Allocation (LDA). Makalah-makalah tentang topik itu membahasnya, membuat saya berpikir saya kehilangan sesuatu yang jelas ...
Kesederhanaan dipandang sebagai ukuran kinerja yang baik untuk LDA. Idenya adalah bahwa Anda menyimpan sampel ketidaksepakatan, melatih LDA Anda pada sisa data, kemudian menghitung kebingungan dari ketidaksepakatan tersebut.
Kekacauan bisa diberikan oleh rumus:
(Diambil dari Pengambilan gambar pada basis data gambar skala besar, Horster et al .)
Di sini adalah jumlah dokumen (dalam sampel uji, mungkin), mewakili kata-kata dalam dokumen , jumlah kata dalam dokumen .w d d N d d
Tidak jelas bagi saya bagaimana menghitung secara wajar , karena kami tidak memiliki campuran topik untuk dokumen yang . Idealnya, kami akan berintegrasi dengan Dirichlet sebelum melakukan semua campuran topik yang mungkin dan menggunakan topik multinomial yang kami pelajari. Menghitung integral ini tampaknya bukan tugas yang mudah.
Sebagai alternatif, kami dapat mencoba mempelajari campuran topik yang optimal untuk setiap dokumen yang tersedia (mengingat topik yang kami pelajari) dan menggunakannya untuk menghitung kebingungan. Ini bisa dilakukan, namun tidak sepele seperti yang disarankan makalah seperti Horter dkk dan Blei dkk, dan tidak segera jelas bagi saya bahwa hasilnya akan setara dengan kasus ideal di atas.