Saya mencari beberapa masukan dan teori tentang cara mendekati topik leksikal.
Katakanlah saya memiliki koleksi string, yang mungkin hanya satu kalimat atau berpotensi beberapa kalimat. Saya ingin mengurai string ini dan merobek kata-kata yang paling penting, mungkin dengan skor yang menunjukkan seberapa besar kemungkinan kata itu penting.
Mari kita lihat beberapa contoh tentang apa yang saya maksud.
Contoh 1:
"Aku benar-benar menginginkan Keurig, tetapi aku tidak mampu membelinya!"
Ini adalah contoh yang sangat mendasar, hanya satu kalimat. Sebagai manusia, saya dapat dengan mudah melihat bahwa "Keurig" adalah kata yang paling penting di sini. Juga, "mampu" relatif penting, meskipun jelas bukan poin utama dari kalimat itu. Kata "Saya" muncul dua kali, tetapi tidak penting sama sekali karena tidak benar-benar memberi tahu kami informasi apa pun. Saya mungkin berharap melihat hash dari kata / skor sesuatu seperti ini:
"Keurig" => 0.9
"afford" => 0.4
"want" => 0.2
"really" => 0.1
etc...
Contoh # 2:
"Baru saja memiliki salah satu praktik renang terbaik dalam hidupku. Mudah-mudahan aku bisa menjaga waktuku datang kompetisi. Kalau saja aku ingat untuk mengambil arloji non-tahan air saya."
Contoh ini memiliki banyak kalimat, sehingga akan ada kata-kata yang lebih penting. Tanpa mengulangi latihan poin dari contoh # 1, saya mungkin akan berharap untuk melihat dua atau tiga kata yang sangat penting keluar dari ini: "berenang" (atau "latihan berenang"), "kompetisi", & "menonton" (atau "tahan air" menonton "atau" arloji non-tahan air "tergantung pada bagaimana tanda hubung ditangani).
Dengan beberapa contoh seperti ini, bagaimana Anda akan melakukan sesuatu yang serupa? Apakah ada perpustakaan (algoritma open source) yang ada dalam pemrograman yang sudah melakukan ini?