Saya awalnya bertanya ini pada stack overflow dan dirujuk ke situs ini, jadi begini:
Saya menerapkan beberapa metode yang tidak terawasi dari peringkasan dokumen berbasis pemilihan / ekstraksi konten dan saya bingung tentang apa yang disebut buku teks saya sebagai "rasio kemungkinan log". Buku Speech and Language Processing oleh Jurafsky & Martin secara singkat menjelaskannya sebagai berikut:
LLR untuk sebuah kata, umumnya disebut lambda (w), adalah rasio antara probabilitas mengamati w di kedua input dan di latar belakang corpus dengan asumsi probabilitas yang sama di kedua korpora, dan probabilitas mengamati w di kedua asumsi probabilitas berbeda untuk w pada input dan corpus latar belakang.
Dengan memecahnya, kita memiliki pembilang: "probabilitas mengamati w di kedua input dan di latar belakang corpus dengan asumsi probabilitas yang sama di kedua korpora" - Bagaimana cara menghitung probabilitas apa yang digunakan di sini?
dan penyebutnya: "probabilitas mengamati w di kedua asumsi probabilitas berbeda untuk w dalam input dan latar belakang corpus". - apakah ini sesederhana probabilitas kata yang muncul dalam input kali probabilitas kata yang muncul dalam korpus? ex:
(hitung (kata, input) / total kata dalam input) * (hitung (kata, corpus) / total kata dalam corpus)
Saya telah mencari di atas kertas referensi buku saya, Metode Akurat untuk Statistik Kejutan dan Kebetulan (Dunning 1993), tetapi saya menemukan kesulitan untuk berhubungan dengan masalah menghitung nilai LLR untuk kata-kata individu dalam peringkasan berbasis ekstraksi. Klarifikasi apa pun di sini akan sangat dihargai.