Tas kata vs model ruang vektor?

12

Apa perbedaan antara model representasi teks ini: Tas kata dan model ruang vektor?

machine-learning text-mining

— samsamara
sumber

Bag of words adalah himpunan yang mewakili kata-kata unik sebagai penghitungan. Ruang vektor istilah adalah vektor boolean yang jarang yang juga mencatat posisi kata. Kupikir.

— user122160

15

Bag-of-words dan model ruang vektor merujuk pada berbagai aspek karakterisasi teks seperti dokumen. Mereka dijelaskan dengan baik dalam buku teks "Speech and Language Processing" oleh Jurafsky dan Martin, 2009, di bagian 23.1 tentang pencarian informasi. Referensi yang lebih singkat adalah "Pengantar Pengambilan Informasi" oleh Manning, Raghavan, dan Schütze, 2008, di bagian "Model ruang vektor untuk penilaian".

Bag-of-words merujuk pada jenis informasi apa yang dapat Anda ekstrak dari sebuah dokumen (yaitu, kata unigram). Model ruang vektor mengacu pada struktur data untuk setiap dokumen (yaitu, vektor fitur pasangan term & term). Kedua aspek saling melengkapi.

Lebih spesifik:

Bag-of-words : Untuk dokumen yang diberikan, Anda mengekstrak hanya kata unigram (alias istilah) untuk membuat daftar kata yang tidak terurut. Tidak ada tag POS, tidak ada sintaks, tidak ada semantik, tidak ada posisi, tidak ada bigrams, tidak ada trigram. Hanya unigram kata-kata itu sendiri, membuat sekelompok kata untuk mewakili dokumen. Jadi: Kantong kata-kata .

Model ruang vektor : Diberikan kantong kata yang Anda ekstrak dari dokumen, Anda membuat vektor fitur untuk dokumen, di mana setiap fitur adalah kata (istilah) dan nilai fitur adalah bobot istilah. Istilah berat mungkin:

nilai biner (dengan 1 menunjukkan bahwa istilah tersebut terjadi dalam dokumen, dan 0 menunjukkan bahwa itu tidak terjadi);
nilai frekuensi istilah (menunjukkan berapa kali istilah tersebut terjadi dalam dokumen); atau
nilai TF-IDF (mis. angka floating-point kecil seperti 1,23).

Seluruh dokumen dengan demikian merupakan vektor fitur, dan setiap vektor fitur sesuai dengan suatu titik dalam ruang vektor . Model untuk ruang vektor ini sedemikian rupa sehingga ada sumbu untuk setiap istilah dalam kosakata, sehingga ruang vektor adalah dimensi- V , di mana V adalah ukuran kosakata. Vektor kemudian secara konseptual juga harus V -dimensi dengan fitur untuk setiap istilah kosakata. Namun, karena kosakata dapat menjadi besar (pada urutan V = 100.000 istilah), vektor fitur dokumen biasanya hanya akan berisi istilah yang terjadi dalam dokumen itu dan menghilangkan istilah yang tidak. Vektor fitur semacam itu dianggap jarang .

Contoh representasi vektor dari suatu dokumen mungkin terlihat seperti ini:

DOCUMENT_ID_42 LABEL_POLITICS a 55 ability 1 about 5 absent 2 abuse 1 access 1
accompanied 1 accompanying 2 according 2 account 1 accounted 1 accurate 1
acknowledge 4 activities 1 actual 1 actually 2 administering 1 ...

di mana vektor contoh ini memiliki id dokumen (misalnya 42), label kebenaran-tanah (misalnya politik) dan daftar fitur dan nilai fitur yang terdiri dari pasangan frekuensi term & term. Di sini, dapat dilihat bahwa kata "absen" muncul 2 kali dalam dokumen ini.

— stackoverflowuser2010
sumber

1

Apakah itu dengan menggunakan Bag of Words Anda menetapkan frekuensi kata ke elemen matriks term-dokumen dan dalam Vector Space Model elemen matriks term-term dokumen cukup umum selama operasi (titik produk) dalam ruang vektor masuk akal (bobot tf-idf, untuk contoh)?

— danas.zuokas
sumber

ya saya juga berpikir bahwa VSM adalah versi perbaikan dari kata-kata.

— samsamara