Perhatikan bahwa saya melakukan semuanya dalam R.
Masalahnya sebagai berikut:
Pada dasarnya, saya memiliki daftar riwayat hidup (CV). Beberapa kandidat akan memiliki pengalaman kerja sebelumnya dan beberapa tidak. Tujuannya di sini adalah untuk: berdasarkan teks pada CV mereka, saya ingin mengklasifikasikan mereka ke dalam sektor pekerjaan yang berbeda. Saya khususnya dalam kasus-kasus itu, di mana para kandidat tidak memiliki pengalaman / adalah seorang mahasiswa, dan saya ingin membuat prediksi untuk mengklasifikasikan sektor pekerjaan mana yang kemungkinan besar dimiliki oleh kandidat ini setelah lulus.
Pertanyaan 1: Saya tahu algoritma pembelajaran mesin. Namun, saya belum pernah melakukan NLP sebelumnya. Saya menemukan alokasi Latent Dirichlet di internet. Namun, saya tidak yakin apakah ini adalah pendekatan terbaik untuk mengatasi masalah saya.
Gagasan asli saya: jadikan ini masalah belajar yang diawasi . Misalkan kita sudah memiliki sejumlah besar data berlabel, artinya kita telah dengan benar memberi label pada sektor pekerjaan untuk daftar kandidat. Kami melatih model menggunakan algoritme ML (yaitu tetangga terdekat ...) dan memasukkan data tidak berlabel tersebut , yang merupakan kandidat yang tidak memiliki pengalaman kerja / siswa, dan mencoba memprediksi sektor pekerjaan mana yang akan menjadi bagian mereka.
Perbarui Pertanyaan 2: Apakah ide yang baik untuk membuat file teks dengan mengekstraksi semuanya dalam resume dan mencetak data ini dalam file teks, sehingga setiap resume dikaitkan dengan file teks, yang berisi string tidak terstruktur, dan kemudian kami teknik penambangan teks yang diterapkan ke file teks dan membuat data menjadi terstruktur atau bahkan untuk membuat matriks frekuensi istilah yang digunakan dari file teks? Misalnya, file teks mungkin terlihat seperti ini:
I deployed ML algorithm in this project and... Skills: Java, Python, c++ ...
Inilah yang saya maksud dengan 'tidak terstruktur', yaitu menciutkan semuanya menjadi satu baris string.
Apakah pendekatan ini salah? Harap perbaiki saya jika Anda menganggap pendekatan saya salah.
Pertanyaan 3: Bagian yang sulit adalah: bagaimana cara mengidentifikasi dan mengekstrak kata kunci ? Menggunakan tm
paket dalam R? berdasarkan algoritma apa tm
paket itu? Haruskah saya menggunakan algoritma NLP? Jika ya, algoritma apa yang harus saya perhatikan? Tolong tunjukkan saya ke beberapa sumber daya yang baik untuk melihat juga.
Ide apa pun akan bagus.