Berikut ini adalah keseluruhan makalah tentang masalah ini, dengan ringkasan berbagai pendekatan. Ini disebut Estimasi Nilai Berbeda dalam literatur.
Jika saya harus melakukan ini sendiri, tanpa membaca surat kabar mewah, saya akan melakukan ini. Dalam membangun model bahasa, kita sering harus memperkirakan probabilitas mengamati kata yang sebelumnya tidak diketahui, mengingat banyak teks. Pendekatan yang cukup bagus dalam memecahkan masalah ini untuk model bahasa khususnya adalah dengan menggunakan jumlah kata yang terjadi tepat sekali, dibagi dengan jumlah total token. Ini disebut Perkiraan Good Turing .
Biarkan u1 menjadi jumlah nilai yang terjadi tepat sekali dalam sampel item m.
P[new item next] ~= u1 / m.
Biarkan Anda menjadi jumlah item unik dalam sampel ukuran m Anda.
Jika Anda secara keliru menganggap bahwa tingkat 'item baru berikutnya' tidak berkurang karena Anda mendapatkan lebih banyak data, maka menggunakan Good Turing, Anda harus
total uniq set of size s ~= u + u1 / m * (s - m)
Ini memiliki beberapa perilaku buruk karena Anda menjadi sangat kecil, tetapi itu mungkin tidak menjadi masalah bagi Anda dalam praktik.