Saya memiliki 40000 baris data teks dari domain perawatan kesehatan. Data memiliki satu kolom untuk teks (2-5 kalimat) dan satu kolom untuk kategorinya. Saya ingin mengklasifikasikannya menjadi 300 kategori. Beberapa kategori independen sedangkan beberapa agak terkait. Distribusi data di antara kategori tidak seragam baik yaitu beberapa kategori (sekitar 40 di antaranya) memiliki lebih sedikit data sekitar 2-3 baris.
Saya melampirkan kemungkinan log untuk setiap kelas / kategori. (ATAU distribusi kelas) di sini.