Model topik dan kata metode co-kejadian


26

Model topik populer seperti LDA biasanya mengelompokkan kata-kata yang cenderung muncul bersama dalam topik yang sama (cluster).

Apa perbedaan utama antara model topik tersebut, dan pendekatan pengelompokan sederhana berdasarkan kejadian bersama lainnya seperti PMI? (PMI singkatan dari Pointwise Mutual Information, dan digunakan untuk mengidentifikasi kata-kata yang muncul bersamaan dengan kata yang diberikan.)

Jawaban:


32

Baru-baru ini, banyak literatur yang membahas cara mengekstrak informasi dari teks tertulis telah berkembang. Oleh karena itu saya hanya akan menggambarkan empat tonggak / model populer dan kelebihan / kekurangannya dan dengan demikian menyoroti (beberapa) perbedaan utama (atau setidaknya apa yang saya pikir adalah perbedaan utama / paling penting).

Anda menyebutkan pendekatan "termudah", yang akan mengelompokkan dokumen dengan mencocokkannya dengan permintaan istilah yang telah ditentukan (seperti dalam PMI). Namun metode pencocokan leksikal ini mungkin tidak akurat karena polisemi (beberapa makna) dan sinonim (beberapa kata yang memiliki makna yang sama) dari istilah tunggal.

Sebagai solusi, pengindeksan semantik laten ( LSI ) mencoba mengatasinya dengan memetakan istilah dan dokumen ke dalam ruang semantik laten melalui dekomposisi nilai singular. Hasil LSI adalah indikator makna yang lebih kuat daripada istilah individual. Namun, satu kelemahan dari LSI adalah bahwa ia tidak memiliki fondasi probabilistik yang kuat.

Ini sebagian diselesaikan dengan penemuan probabilistic LSI ( pLSI ). Dalam model pLSI setiap kata dalam dokumen diambil dari model campuran yang ditentukan melalui variabel acak multinomial (yang juga memungkinkan co-kejadian tingkat tinggi seperti yang disebutkan @sviatoslav hong). Ini adalah langkah maju yang penting dalam pemodelan teks probabilistik, tetapi tidak lengkap dalam arti bahwa ia tidak menawarkan struktur probabilistik di tingkat dokumen.

Latent Dirichlet Allocation ( LDA ) meringankan ini dan merupakan model probabilistik penuh pertama untuk pengelompokan teks. Blei et al. (2003) menunjukkan bahwa pLSI adalah maksimum yang diperkirakan model LDA di bawah Dirichlet seragam sebelumnya.

Perhatikan bahwa model yang disebutkan di atas (LSI, pLSI, LDA) memiliki kesamaan bahwa mereka didasarkan pada asumsi "kata-kata" - yaitu bahwa dalam suatu dokumen, kata-kata dapat dipertukarkan, yaitu urutan kata dalam dokumen dapat diabaikan. Asumsi pertukaran ini memberikan pembenaran lebih lanjut untuk LDA atas pendekatan lain: Dengan asumsi bahwa tidak hanya kata-kata dalam dokumen dapat dipertukarkan, tetapi juga dokumen, yaitu, urutan dokumen dalam korpus dapat diabaikan, teorema De Finettimenyatakan bahwa setiap set variabel acak yang dapat dipertukarkan memiliki representasi sebagai distribusi campuran. Jadi jika pertukaran untuk dokumen dan kata-kata dalam dokumen diasumsikan, model campuran untuk keduanya diperlukan. Persis inilah yang umumnya dicapai LDA tetapi PMI atau LSI tidak (dan bahkan pLSI tidak seindah LDA).


2
1/2 terima kasih! Sangat jelas. Biarkan saya memeriksa apakah saya benar: Di LSI, dokumen dibentuk oleh campuran kata-kata (tidak ada topik) dan kata-kata dan dokumen dipetakan ke ruang semantik dimensi yang lebih rendah menggunakan SVD. Karena kata-kata dengan makna semantik yang sama dipetakan lebih dekat, kata itu dapat menangani sinonim tetapi memiliki masalah dengan polisemi. pLSI menyelesaikan masalah polisemi dengan memperkenalkan konsep topik. Dalam pLSI, kata-kata diambil dari distribusi kata (topik) multinomial, kata yang sama dapat berasal dari beberapa topik dan dokumen memiliki banyak topik, meskipun ini tidak dimodelkan secara eksplisit.
kanzen_master

2
Saya pikir secara umum Anda melakukannya dengan benar. Beberapa koreksi yang lebih kecil: LSI dianggap berfungsi baik dengan polisemi dan sinomi. pLSI pada dasarnya adalah formulasi untuk mencapai apa yang diupayakan LSI dengan alat-alat analisis kelas laten / mixturemodels dan probabilitas daripada sekadar aljabar linier. LDA dibandingkan dengan pLSI adalah model yang sepenuhnya generatif dengan menentukan distribusi topik per dokumen.
Momo

1
Mengenai poin Anda tentang overfitting dan prediksi, saya tidak cukup berpengetahuan untuk pernyataan yang berkualitas. Tapi, untuk semua nilainya, saya tidak melihat mengapa LDA seharusnya lebih rentan terhadap overfitting daripada pLSI (karena LDA pada dasarnya hanya menambahkan sebelum model pLSI). Keduanya tidak memiliki koreksi bawaan untuk overfitting atau sejenisnya. "Prediksi" dokumen baru mungkin memang lebih mudah atau layak dengan model yang sepenuhnya generatif seperti LDA, lihat stats.stackexchange.com/questions/9315/... Tapi saya akan melihat LDA sebagai model deskriptif yang tidak diawasi dan diawasi.
Momo

1
Terima kasih lagi! Hanya 2 pertanyaan terakhir: (1) Mengenai polisemi, dalam pdf ini, akhir halaman 3 Hoffman menyatakan bahwa salah satu perbedaan PLSI dibandingkan dengan LSI adalah polisemi, karena kata yang sama dapat dimiliki oleh distribusi kata yang berbeda (topik); itu sebabnya saya berpikir bahwa LSI tidak bekerja dengan polisemi. (2) Mengenai overfitting, blog ini menyatakan bahwa peningkatan parameter linear menunjukkan bahwa model cenderung overfitting. Apa yang kamu pikirkan ?
kanzen_master

2
Tidak masalah. Anda sudah tahu banyak tentang hal-hal ini, jadi saya juga belajar banyak hal. ad (1) Yah, seperti biasa, itu tergantung: LSI dapat menangani polisemi karena kombinasi istilah yang linear seperti yang dilakukan dalam PCA. Ini melakukan ini lebih baik dengan sinonim, tetapi pada tingkat tertentu juga dengan polisemi. Pada dasarnya kata-kata polisemi yang mirip adalah komponen kata-kata yang ditambahkan yang memiliki makna yang sama. Namun, itu jauh lebih baik daripada pLSI karena setiap kemunculan sebuah kata direpresentasikan sebagai satu titik dalam ruang. Representasi kata karena itu adalah rata-rata dari semua arti kata yang berbeda dalam korpus.
Momo

5

LDA dapat menangkap tatanan kemunculan istilah yang lebih tinggi (karena asumsi masing-masing topik adalah distribusi multinomial atas persyaratan), yang tidak mungkin dengan hanya menghitung PMI antar istilah.


4
Terima kasih! Apa definisi dari "tingkat tinggi kejadian bersama"?
kanzen_master

5

Saya mungkin terlambat 3 tahun tetapi saya ingin menindaklanjuti pertanyaan Anda pada contoh "tingkat tinggi kejadian bersama".

Pada dasarnya, jika istilah t1 terjadi bersama dengan istilah t2 yang terjadi bersama dengan istilah t3, maka istilah t1 adalah kejadian kedua urutan dengan istilah t3. Anda dapat pergi ke urutan yang lebih tinggi jika Anda mau, tetapi pada akhirnya Anda mengontrol seberapa mirip dua kata itu.

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.