Menggunakan kata-kata topik yang dihasilkan oleh LDA untuk mewakili dokumen


8

Saya ingin melakukan klasifikasi dokumen dengan mewakili setiap dokumen sebagai serangkaian fitur. Saya tahu bahwa ada banyak cara: BOW, TFIDF, ...

Saya ingin menggunakan Latent Dirichlet Allocation (LDA) untuk mengekstrak kata kunci topik dokumen EACH TUNGGAL. dokumen diwakili oleh kata-kata topik ini. Tapi saya tidak tahu apakah itu masuk akal karena menurut saya LDA biasanya digunakan untuk mengekstrak kata-kata topik yang dibagikan oleh A BUNCH OF dokumen.

Dapatkah LDA digunakan untuk mendeteksi topik dokumen A SINGLE?

Jawaban:


13

Dapatkah LDA digunakan untuk mendeteksi topik dokumen A SINGLE?

Ya, dalam representasi khusus dari 'topik', dan diberikan kumpulan pelatihan dokumen (biasanya terkait).

LDA mewakili topik sebagai distribusi atas kata-kata, dan dokumen sebagai distribusi atas topik. Artinya, salah satu tujuan LDA adalah untuk sampai pada representasi probabilistik dari setiap dokumen sebagai satu set topik. Misalnya, implementasi LDA di gensimdapat mengembalikan representasi ini untuk dokumen yang diberikan.

Tetapi ini tergantung pada dokumen lain dalam corpus: Setiap dokumen yang diberikan akan memiliki representasi yang berbeda jika dianalisis sebagai bagian dari corpus yang berbeda.

Itu biasanya tidak dianggap sebagai kekurangan: Sebagian besar aplikasi LDA fokus pada dokumen terkait. The kertas memperkenalkan LDA berlaku untuk dua corpora, salah satu dari Associated Press artikel dan salah satu abstrak artikel ilmiah. Posting blog Edwin Chen yang didekati dengan baik menerapkan LDA pada tahap email dari masa Sarah Palin sebagai gubernur Alaska.

Jika aplikasi Anda menuntut pemisahan dokumen menjadi kelas yang diketahui dan saling eksklusif, maka topik yang diturunkan LDA dapat digunakan sebagai fitur untuk klasifikasi. Memang, makalah awal tidak hanya dengan AP corpus, dengan hasil yang baik.

Terkait, demonstrasi Chen tidak memilah dokumen ke dalam kelas eksklusif, tetapi sebagian besar dokumennya memusatkan kemungkinan mereka pada topik LDA tunggal. Seperti yang dijelaskan David Blei dalam ceramah video ini , prior Dirichlet dapat dipilih untuk mendukung sparsity. Secara lebih sederhana, "sebuah dokumen dihukum karena menggunakan banyak topik," seperti yang dikatakan slide-nya. Ini tampaknya LDA terdekat bisa sampai ke satu topik, tanpa pengawasan, tetapi tentu saja tidak menjamin setiap dokumen akan diwakili seperti itu.


Terima kasih atas balasan Anda. Bisakah saya memasukkan satu dokumen, daripada satu set dokumen, ke LDA dan menggunakan kata-kata keluaran sebagai topik dokumen?
Munichong

Dengan "memasukkan satu dokumen," maksud Anda "menggunakan set pelatihan yang terdiri dari satu dokumen"? Atau, "mengekstrak topik dari satu dokumen, out-of-sample menggunakan model yang terlatih"?
Sean Easter

Maksud saya "gunakan satu set pelatihan yang terdiri dari satu dokumen" dan tentukan jumlah topik target menjadi 1, yaitu, ambil satu topik (satu set kata-kata) dari satu-satunya dokumen pelatihan.
Munichong

Saya belum pernah mencoba, jadi saya tidak bisa mengkonfirmasi secara positif bagaimana implementasi akan memperlakukan input itu. Tetapi menggunakan satu dokumen dan satu topik akan menentang asumsi generatif tertentu dari model. Anda pada dasarnya mengasumsikan setiap kata dalam dokumen diambil dari satu distribusi multinomial tunggal; posterior untuk parameternya tidak lebih dari jumlah kata yang dinormalisasi dalam dokumen. Semua ini untuk mengatakan saya berjuang untuk melihat bagaimana ini dapat menghasilkan keluaran yang bermakna. Ini akan seperti menghitung tf-idf pada korpus satu: Statistik bergantung pada karakteristik corpus yang lebih luas.
Sean Easter
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.