Rasio kemungkinan log dalam peringkasan dokumen

Saya awalnya bertanya ini pada stack overflow dan dirujuk ke situs ini, jadi begini:

Saya menerapkan beberapa metode yang tidak terawasi dari peringkasan dokumen berbasis pemilihan / ekstraksi konten dan saya bingung tentang apa yang disebut buku teks saya sebagai "rasio kemungkinan log". Buku Speech and Language Processing oleh Jurafsky & Martin secara singkat menjelaskannya sebagai berikut:

LLR untuk sebuah kata, umumnya disebut lambda (w), adalah rasio antara probabilitas mengamati w di kedua input dan di latar belakang corpus dengan asumsi probabilitas yang sama di kedua korpora, dan probabilitas mengamati w di kedua asumsi probabilitas berbeda untuk w pada input dan corpus latar belakang.

Dengan memecahnya, kita memiliki pembilang: "probabilitas mengamati w di kedua input dan di latar belakang corpus dengan asumsi probabilitas yang sama di kedua korpora" - Bagaimana cara menghitung probabilitas apa yang digunakan di sini?

dan penyebutnya: "probabilitas mengamati w di kedua asumsi probabilitas berbeda untuk w dalam input dan latar belakang corpus". - apakah ini sesederhana probabilitas kata yang muncul dalam input kali probabilitas kata yang muncul dalam korpus? ex:

(hitung (kata, input) / total kata dalam input) * (hitung (kata, corpus) / total kata dalam corpus)

Saya telah mencari di atas kertas referensi buku saya, Metode Akurat untuk Statistik Kejutan dan Kebetulan (Dunning 1993), tetapi saya menemukan kesulitan untuk berhubungan dengan masalah menghitung nilai LLR untuk kata-kata individu dalam peringkasan berbasis ekstraksi. Klarifikasi apa pun di sini akan sangat dihargai.

natural-language text-summarization

— Richard
sumber

Bisakah Anda memberi tahu kami apa buku teks itu?

— onestop

Pidato dan Pemrosesan Bahasa oleh Jurafsky & Martin

— Richard

Dengan pengetahuan saya yang terbatas, saya pikir:

"probabilitas mengamati w dalam input" membutuhkan distribusi untuk menghitung nilai
"probabilitas mengamati w di kedua input dan di latar belakang corpus dengan asumsi probabilitas yang sama di kedua korpora" berarti "kemungkinan mengamati ... mengingat bahwa probabilitas untuk w adalah sama di kedua korpora".

Inilah formulasi saya untuk itu:

Merumuskan masalah sedikit:

Hipotesis 1: P (input input) = P (input latar) = p
$\ne$

Bagian penting adalah bahwa Anda perlu mengasumsikan distribusi di sini. Secara sederhana, kami mengasumsikan distribusi Binomial untuk menghasilkan w dalam teks. Berdasarkan sampel, kita dapat menggunakan estimasi kemungkinan maksimum untuk menghitung nilai untuk p, p1, dan p2, dan inilah mereka:

p = (count-of-w-in-input + count-of-w-in-background) / (ukuran-input + ukuran-background) = (c1 + c2) / (N1 + N2)
p1 = c1 / N1
p2 = c2 / N2

Kami ingin tahu hipotesis mana yang lebih mungkin. Oleh karena itu, kami menghitung kemungkinan setiap hipotesis dan membandingkan satu sama lain (yang pada dasarnya adalah apa yang rasio kemungkinan).

Karena kita mengasumsikan distribusi binomial , kita dapat menghitung kemungkinan memiliki c1 dan c2.

Untuk Hipotesis 1:

L (c1) = Probabilitas mengamati w pada input = kemungkinan mencapai c1 ketika ada kata N1 dengan asumsi probabilitas p (atau, dengan kata lain, memilih w untuk c1 kali dari N1 kali) adalah b (N1, c1 , p) - silakan lihat rumus probabilitas binomial di sini

L (c2) = Probabilitas mengamati w di latar belakang = kemungkinan mencapai c2 ketika ada kata-kata N2 mengasumsikan probabilitas p adalah b (N2, c2, p)

Untuk Hipotesis 2, kita bisa menggunakan p1 dan p2 sebagai gantinya.

Sekarang kita ingin tahu hipotesis mana yang lebih mungkin; kita perlu beberapa cara membandingkan nilai output dari setiap hipotesis.

Tetapi setiap hipotesis memiliki 2 nilai, L (c1) dan L (c2). Bagaimana kita bisa membandingkan hipotesis mana yang lebih mungkin? --- Kami memilih untuk melipatgandakannya bersama untuk mencapai output bernilai tunggal. (karena analog dengan geometri, saya kira)

— Tanin
sumber

dalam item Anda, p, p1, dan p2 adalah perkiraan p, p1, dan p2, kan?

— Xi'an

Ya itu benar. Secara statistik, mereka adalah perkiraan kemungkinan maksimum yang diberikan data sampel dan distribusi binomial.

— Tanin

Terima kasih telah menunjukkannya, btw. Saya sudah memperbaiki jawabannya.

— Tanin