Saya telah mengerjakan proyek kecil pribadi yang membutuhkan keterampilan kerja pengguna dan menyarankan karier yang paling ideal bagi mereka berdasarkan keterampilan itu. Saya menggunakan database daftar pekerjaan untuk mencapai ini. Saat ini, kodenya berfungsi sebagai berikut:
1) Memproses teks dari setiap daftar pekerjaan untuk mengekstrak keterampilan yang disebutkan dalam daftar
2) Untuk setiap karier (mis. "Analis Data"), gabungkan teks yang diproses dari daftar pekerjaan untuk karier itu ke dalam satu dokumen
3) Hitung TF-IDF dari setiap keterampilan dalam dokumen karir
Setelah ini, saya tidak yakin metode mana yang harus saya gunakan untuk menentukan peringkat karier berdasarkan daftar keterampilan pengguna. Metode paling populer yang pernah saya lihat adalah untuk memperlakukan keterampilan pengguna sebagai dokumen juga, kemudian menghitung TF-IDF untuk dokumen keterampilan, dan menggunakan sesuatu seperti cosinus similarity untuk menghitung kesamaan antara dokumen keterampilan dan masing-masing dokumen karir.
Ini sepertinya bukan solusi ideal bagi saya, karena kesamaan cosinus paling baik digunakan ketika membandingkan dua dokumen dengan format yang sama. Dalam hal ini, TF-IDF sepertinya bukan metrik yang tepat untuk diterapkan pada daftar keterampilan pengguna sama sekali. Misalnya, jika pengguna menambahkan keterampilan tambahan ke daftar mereka, TF untuk setiap keterampilan akan turun. Pada kenyataannya, saya tidak peduli berapa frekuensi keterampilan dalam daftar keterampilan pengguna - Saya hanya peduli bahwa mereka memiliki keterampilan tersebut (dan mungkin seberapa baik mereka mengetahui keterampilan itu).
Sepertinya metrik yang lebih baik adalah melakukan hal berikut:
1) Untuk setiap keterampilan yang dimiliki pengguna, hitung TF-IDF keterampilan itu dalam dokumen karier
2) Untuk setiap karier, jumlah hasil TF-IDF untuk semua keterampilan pengguna
3) Rangking karier berdasarkan jumlah di atas
Apakah saya berpikir di garis yang benar di sini? Jika demikian, apakah ada algoritma yang bekerja di sepanjang baris ini, tetapi lebih canggih dari jumlah yang sederhana? Terima kasih untuk bantuannya!