Saya membuat purwarupa model tas naif Bayes saya sendiri, dan saya punya pertanyaan tentang menghitung probabilitas fitur.
Katakanlah saya punya dua kelas, saya hanya akan menggunakan spam dan bukan-spam karena itulah yang digunakan semua orang. Dan mari kita ambil kata "viagra" sebagai contoh. Saya memiliki 10 email di set pelatihan saya, 5 spam dan 5 non-spam. "viagra" muncul di semua 5 dokumen spam. Dalam salah satu dokumen pelatihan itu muncul 3 kali (ini adalah pertanyaan saya tentang), jadi itu 7 penampilan dalam total spam. Di set pelatihan non-spam, itu muncul 1 kali.
Jika saya ingin memperkirakan p (viagra | spam) apakah itu sederhana:
p (viagra | spam) = 5 dokumen spam berisi viagra / 5 total dokumen spam = 1
Dengan kata lain, apakah fakta bahwa satu dokumen menyebutkan viagra 3 kali alih-alih sekali tidak masalah?
Sunting: Berikut adalah posting blog tempat penulis menggunakan pendekatan yang baru saja saya buat: http://ebiquity.umbc.edu/blogger/2010/12/07/naive-bayes-classifier-in-50-lines/
Dan di sini adalah posting blog di mana penulis mengatakan: p (viagra | spam) = 7 spam viagra menyebutkan / 8 total menyebutkan http://www.nils-haldenwang.de/computer-science/machine-learning/how-to-apply -naive-bayes-classifiers-to-dokumen-klasifikasi-masalah
Dan kemudian salah satu jawaban di bawah mengatakan itu seharusnya: p (viagra | spam) = 7 viagra menyebutkan dalam spam / jumlah total istilah dalam spam
Adakah yang bisa menautkan ke sumber yang memberikan pendapat tentang ini?