Sebagai permulaan, Naif Bayes mungkin tidak sesuai di sini. Ini mengasumsikan independensi di antara input (maka "Naif") dan kata-kata dalam kalimat sangat tergantung.
Tetapi, dengan asumsi Anda benar-benar ingin menjalankan dengan NB sebagai algoritma untuk memulai eksperimen Anda, ada dua opsi yang akan saya pertimbangkan:
Ungraceful: Banyak pengklasifikasi NB
Ini akan menjadi pendekatan alternatif. Buat korupus dari semua kata yang diamati sebagai vektor input Anda. Buat corpus dari semua tag yang diamati sebagai vektor output Anda. Klasifikasi NB dengan beberapa keluaran sama dengan memiliki beberapa pengklasifikasi NB dengan satu keluaran masing-masing (demikian juga yang mana yang lebih mudah diterapkan dalam kerangka kerja perangkat lunak apa pun yang Anda gunakan). Perlakukan setiap elemen sebagai sampel pelatihan di mana input yang diberikan (kata) adalah 1
jika kata itu ada dan 0
jika kata itu tidak ada. Gunakan skema biner yang sama untuk output.
Brute ini memaksa aplikasi NB Classifier ke data Anda, dan membuat Anda menemukan makna dengan tetap menambang untuk mengatur sekumpulan besar classifier yang akan Anda gunakan.
Lebih Anggun: Memproses data Anda
Ini adalah pendekatan yang saya sarankan jika Anda ingin menjalankan dengan satu NB Classifier multi-kelas.
Tujuan Anda di sini adalah untuk mengetahui cara memetakan setiap set tag ke satu kelas. Saya yakin ada semacam skema pengelompokan atau analisis jaringan (mungkin ["selebriti"] yang dikaitkan dengan ["pembunuhan"] dapat menjadi segmen ["pesta pora"]) yang secara masuk akal akan memetakan tag Anda ke satu cluster tunggal. Jika Anda memperlakukan tag sebagai node dan dua tag yang diberikan bersama sebagai tautan, maka Anda akan ingin melihat algoritma pendeteksian komunitas (yang merupakan tempat saya memulai). Tapi, jika Anda hanya ingin sesuatu berfungsi, maka semacam peretasan pada tag yang mengubah daftar tag menjadi hanya tag yang paling umum dilihat dalam dataset Anda sudah cukup.
Metode ini memuat pekerjaan pembersihan data Anda dan akan membuat output NB Classifier lebih mudah dipahami.