Saya telah berhasil menggunakan Latent Dirichlet Allocation (LDA) untuk menemukan tema laten atau "topik" dalam data tekstual. LDA akan membuatktopik di luar istilah (kata-kata) dari kumpulan deskripsi pekerjaan Anda. Setiap uraian tugas diberi kemungkinan berisi masing-masingktopik. Misalnya jika Anda meminta LDA untuk mengklasifikasikan korpus menjadi 3 topik, deskripsi pekerjaan untuk seorang desainer grafis mungkin memiliki 80% "ilustrator grafis photoshop ...", 18% "HTML CSS JS ...", dan 2% "Java Berorientasi objek musim semi ... ". Ada banyak yang bisa dibaca tentang LDA, cukup cari atau mulai dengan pertanyaan Quora .
Analisis saya dengan LDA adalah di R tetapi tentu saja ada paket Python meskipun saya belum pernah menggunakannya dalam pekerjaan saya sendiri.
Anda dapat mempertimbangkan memilih nomor topik yang sesuai dengan jumlah pekerjaan di SOC. Setelah Anda membuat topik, periksa dan lihat apakah Anda dapat menemukan tautan yang bermakna ke SOC dan sesuaikan nomor topik sampai Anda puas.
Untuk membuat taksiran gaji untuk setiap uraian pekerjaan, pertimbangkan untuk menimbang setiap gaji menggunakan probabilitas topik. Sebagai contoh jika deskripsi pekerjaan memiliki peluang 80% untuk menjadi pengembang perangkat lunak SOC, berat gajinya sebesar 0,80 dan topik lainnya juga. Jika itu menimbulkan terlalu banyak kebisingan, tetapkan batas (mungkin 20%) dan hapus bobot topik yang tersisa dari taksiran gaji.
Untuk kesalahan ejaan, Anda selalu dapat menyerangnya dengan pemeriksa ejaan dan melihat perbandingannya dengan hasil tanpa alat. Pastikan juga menggunakan teknik NLP standar seperti penghapusan tanda baca dan kata stemming sebelum menjalankan LDA.