Saya membuat prototipe aplikasi dan saya membutuhkan model bahasa untuk menghitung kebingungan pada beberapa kalimat yang dihasilkan.
Apakah ada model bahasa terlatih dalam python yang bisa saya gunakan? Sesuatu yang sederhana seperti
model = LanguageModel('en')
p1 = model.perplexity('This is a well constructed sentence')
p2 = model.perplexity('Bunny lamp robert junior pancake')
assert p1 < p2
Saya telah melihat beberapa kerangka kerja tetapi tidak dapat menemukan apa yang saya inginkan. Saya tahu saya bisa menggunakan sesuatu seperti:
from nltk.model.ngram import NgramModel
lm = NgramModel(3, brown.words(categories='news'))
Ini menggunakan distribusi probabilitas turing yang baik pada Brown Corpus, tetapi saya sedang mencari beberapa model yang dibuat dengan baik pada beberapa dataset besar, seperti dataset kata 1b. Sesuatu yang benar-benar dapat saya percayai hasil untuk domain umum (bukan hanya berita)