Saya sedang membangun pengkategorisasi teks untuk kalimat pendek. Selain memberi tahu pengguna "kategori teks yang Anda masukkan adalah C", saya ingin dapat menjelaskan mengapa saya membuat keputusan ini, dengan cara yang singkat dan mudah dimengerti. Misalnya, saya tidak ingin memberi tahu pengguna "Saya memasukkan kalimat Anda ke dalam jaringan saraf 3-lapis yang kompleks dan itulah jawaban yang mendapat skor terbaik"; Saya ingin penjelasan seperti "Kalimat Anda mengandung kata-kata U, V dan W, yang merupakan karakteristik dari kategori ini, karena kalimat-kalimat seperti X, Y dan Z yang muncul dalam data pelatihan".
Pertanyaan saya adalah: algoritma klasifikasi apa yang paling cocok untuk aplikasi seperti itu?
k-terdekat-tetangga sepertinya adalah kandidat yang baik, karena saya dapat memberi tahu pengguna "Kalimat Anda memiliki kategori C karena mirip dengan kalimat X, Y dan Z yang memiliki kategori yang sama. Tetapi kinerjanya dalam masalah kategorisasi teks diketahui. menjadi miskin. Saya mencari classifie yang menyeimbangkan kinerja dengan kemampuan penjelasan.
EDIT: Setelah menghabiskan banyak waktu mencari classifier seperti itu, saya mulai membangun perpustakaan pembelajaran mesin yang disebut limdu , yang memungkinkan classifier untuk menjelaskan keputusan mereka. Ini masih dalam pengembangan, tetapi, sudah membantu saya menjelaskan kepada diri sendiri dan rekan-rekan saya mengapa pengklasifikasi kami sering gagal ...