Masalah yang saya tangani adalah mengelompokkan teks-teks pendek menjadi beberapa kelas. Pendekatan saya saat ini adalah menggunakan frekuensi istilah bobot tf-idf dan mempelajari classifier linier sederhana (regresi logistik). Ini bekerja cukup baik (sekitar 90% makro F-1 pada set tes, hampir 100% pada set pelatihan). Masalah besar adalah kata-kata yang tidak terlihat / n-gram.
Saya mencoba untuk meningkatkan classifier dengan menambahkan fitur lain, misalnya vektor berukuran tetap dihitung menggunakan persamaan distribusi (seperti yang dihitung oleh word2vec) atau fitur kategori lainnya dari contoh. Ide saya adalah menambahkan fitur ke fitur input yang jarang dari kantong kata-kata. Namun, ini menghasilkan kinerja yang lebih buruk pada set tes dan pelatihan. Fitur tambahan sendiri memberikan sekitar 80% F-1 pada set tes, sehingga mereka bukan sampah. Memperbesar fitur tidak membantu juga. Pemikiran saya saat ini adalah bahwa fitur semacam ini tidak cocok dengan fitur kata (jarang).
Jadi pertanyaannya adalah: dengan asumsi fitur tambahan memberikan informasi tambahan, apa cara terbaik untuk menggabungkannya? Bisakah melatih pengklasifikasi yang terpisah dan menggabungkannya dalam beberapa jenis pekerjaan ansambel (ini mungkin akan memiliki kelemahan bahwa tidak ada interaksi antara fitur dari pengklasifikasi yang berbeda dapat ditangkap)? Apakah ada model lain yang lebih rumit yang harus saya pertimbangkan?