Saya tidak yakin apakah pertanyaan ini sepenuhnya sesuai di sini, jika tidak, harap hapus.
Saya seorang mahasiswa pascasarjana di bidang ekonomi. Untuk proyek yang menyelidiki masalah dalam asuransi sosial, saya memiliki akses ke sejumlah besar laporan kasus administratif (> 200k) yang berkaitan dengan evaluasi kelayakan. Laporan-laporan ini dapat dihubungkan dengan informasi administrasi individual. Saya ingin mengekstrak informasi dari laporan ini yang dapat digunakan dalam analisis kuantitatif, dan idealnya lebih dari pencarian kata kunci / regex sederhana menggunakan grep
/ awk
dll.
Seberapa bermanfaat Pemrosesan Bahasa Alami untuk ini? Apa pendekatan penambangan teks lain yang bermanfaat? Dari apa yang saya pahami ini adalah bidang yang luas, dan kemungkinan besar beberapa laporan harus diubah untuk digunakan sebagai corpus. Apakah perlu menginvestasikan waktu untuk berkenalan dengan literatur dan metode? Apakah ini bisa membantu dan pernah melakukan hal serupa sebelumnya? Apakah ini sepadan dengan imbalannya, yaitu dapatkah saya mengekstrak informasi yang berpotensi bermanfaat menggunakan NLP untuk studi empiris di bidang ekonomi?
Mungkin ada dana untuk mempekerjakan seseorang untuk membaca dan menyiapkan beberapa laporan. Ini adalah proyek yang lebih besar dan ada kemungkinan untuk mengajukan lebih banyak dana. Saya dapat memberikan rincian lebih lanjut tentang topik tersebut jika benar-benar diperlukan. Salah satu potensi komplikasi adalah bahasanya adalah Jerman, bukan Inggris.
Mengenai kualifikasi, saya sebagian besar dilatih dalam ekonometrika, dan memiliki beberapa pengetahuan tentang statistik komputasi pada tingkat Hastie et al. Book. Saya tahu Python, R, Stata, dan mungkin bisa akrab dengan Matlab dengan cepat. Mengingat perpustakaan, saya menganggap Python adalah alat pilihan untuk ini. Tidak ada pelatihan sama sekali dalam metode kualitatif jika ini relevan, tetapi saya tahu beberapa orang yang bisa saya jangkau.
Saya senang atas masukan apa pun tentang ini, yaitu apakah ini berpotensi bermanfaat, jika demikian, di mana harus mulai membaca dan alat mana yang harus difokuskan secara khusus.