Saya membaca Klasifikasi Naif Bayes hari ini. Saya membaca, di bawah judul Estimasi Parameter dengan menambahkan 1 smoothing :
Mari merujuk ke kelas (seperti positif atau negatif), dan membiarkan mengacu pada tanda atau kata.
Estimasi kemungkinan maksimum untuk adalah
Estimasi bisa bermasalah karena akan memberi kita probabilitas untuk dokumen dengan kata-kata yang tidak dikenal. Cara umum untuk menyelesaikan masalah ini adalah dengan menggunakan penghalusan Laplace.
Biarkan V menjadi himpunan kata dalam himpunan pelatihan, tambahkan elemen baru (untuk tidak diketahui) ke himpunan kata.
Tentukan
di mana mengacu pada kosakata (kata-kata dalam set pelatihan).
Secara khusus, setiap kata yang tidak dikenal akan memiliki probabilitas
Pertanyaan saya adalah ini: mengapa kita repot-repot dengan smoothing Laplace ini sama sekali? Jika kata-kata tidak dikenal yang kita temui dalam set pengujian memiliki probabilitas yang jelas hampir nol, yaitu , apa gunanya termasuk dalam model? Mengapa tidak mengabaikan saja dan menghapusnya?