Klasifikasi Naif Bayes adalah pilihan populer untuk masalah klasifikasi. Ada banyak alasan untuk ini, termasuk:
- "Zeitgeist" - kesadaran luas setelah keberhasilan filter spam sekitar sepuluh tahun yang lalu
- Mudah ditulis
- Model classifier cepat dibangun
- Model dapat dimodifikasi dengan data pelatihan baru tanpa harus membangun kembali model
Namun, mereka 'naif' - yaitu mereka menganggap fitur independen - ini berbeda dengan pengklasifikasi lain seperti pengklasifikasi Entropy Maksimum (yang lambat untuk menghitung).
Asumsi independensi biasanya tidak dapat diasumsikan, dan dalam banyak (kebanyakan?) Kasus, termasuk contoh filter spam, itu benar-benar salah.
Jadi mengapa Naive Bayes Classifier masih berkinerja sangat baik dalam aplikasi seperti itu, bahkan ketika fitur-fitur tersebut tidak saling tergantung?